lucene的Similarity类

最新推荐文章于 2023-08-20 11:40:35 发布

heshengben

最新推荐文章于 2023-08-20 11:40:35 发布

阅读量414

点赞数

文章标签： lucene 搜索引擎

本文链接：https://blog.csdn.net/heshengben/article/details/83648455

版权

在优化搜索引擎结果时候，经常会重载Similarity类，或者重载的他/她的子类。

在处理长文档时候，lucene自带的评分机制对长文挡打分比较低，这个时候往往要重载Similarity的子类SweetSpotSimilarity类，在生成索引库时候，通过它的对象制定甜区的min/max范围和减少的系数。

这样子长文挡也可能得到一个高分数，排在靠前位置，否则长文挡往往排在后面

这是重载甜区类的代码

class SimilarityOne extends SweetSpotSimilarity {
    /**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//覆盖了父类的lengthNorm方法自己定义了排序的规则
	@Override
	 public float idf(int docFreq, int numDocs) {
	    return (float)6;
	  }

}

这是生成索引库时候调用上面的similarityone类：

IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
		//在制作索引的时候使用自定义的一个Similarity
		SimilarityOne sm = new SimilarityOne();
		sm.setLengthNormFactors(1, 50, 0.1f);
		index.setSimilarity(sm); 用index生成所引
......................省略了