lucene的Similarity类

在优化搜索引擎结果时候,经常会重载Similarity类,或者重载的他/她的子类。

在处理长文档时候,lucene自带的评分机制对长文挡打分比较低,这个时候往往要重载Similarity的子类SweetSpotSimilarity类,在生成索引库时候,通过它的对象制定甜区的min/max范围和减少的系数。

 

这样子长文挡也可能得到一个高分数,排在靠前位置,否则长文挡往往排在后面

 

 

这是重载甜区类的代码

class SimilarityOne extends SweetSpotSimilarity {
    /**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//覆盖了父类的lengthNorm方法自己定义了排序的规则
	@Override
	 public float idf(int docFreq, int numDocs) {
	    return (float)6;
	  }

}

 

这是生成索引库时候调用上面的similarityone类:

 

IndexWriter index = new IndexWriter("test5index",new StandardAnalyzer(),true);
		//在制作索引的时候使用自定义的一个Similarity
		SimilarityOne sm = new SimilarityOne();
		sm.setLengthNormFactors(1, 50, 0.1f);
		index.setSimilarity(sm); 用index生成所引
......................省略了
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值