在优化搜索引擎结果时候,经常会重载Similarity类,或者重载的他/她的子类。
在处理长文档时候,lucene自带的评分机制对长文挡打分比较低,这个时候往往要重载Similarity的子类SweetSpotSimilarity类,在生成索引库时候,通过它的对象制定甜区的min/max范围和减少的系数。
这样子长文挡也可能得到一个高分数,排在靠前位置,否则长文挡往往排在后面
这是重载甜区类的代码
class SimilarityOne extends SweetSpotSimilarity {
/**
*
*/
private static final long serialVersionUID = 1L;
//覆盖了父类的lengthNorm方法自己定义了排序的规则
@Override
public float idf(int docFreq, int numDocs) {
return (float)6;
}
}
这是生成索引库时候调用上面的similarityone类:
IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
//在制作索引的时候使用自定义的一个Similarity
SimilarityOne sm = new SimilarityOne();
sm.setLengthNormFactors(1, 50, 0.1f);
index.setSimilarity(sm); 用index生成所引
......................省略了