solr fieldLength fieldNorm精度影响搜索结果的得分

1.USolr.jar 中修正了edismax默认如果查询中有空格,这个空格代表的意思是and,所以需要手动将空格用正则表达式替换为单个空格,然后再将单个空格替换为" or ",从而满足 query “复旦大学 枫林 图书馆” 时不会出现垃圾结果,儿应该使复旦大学张江图书馆等类似信息靠前。

2.将索引中所有XX人民政府的信息全部删除并且重新建立索引,将“人民”二字剔除并存储到别名var_alias_chinese这个field中,同时将var_alias_chinese作为copyfield选项,索引建立到text中。

3.搜索“农家乐土菜”,“农家乐土菜苑”的得分和“农家乐土菜”相同,而经测试,fieldNorm是make sense的,经查询,问题出在存储fieldLength()的精度precision上,fieldLength = 1/(Math.sqrt(numTerms)), 其中numTerms代表这个查询结果中切分出的term的数量。Solr采用Lucene的评分机制Similarity,参考source code

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.lucene/lucene-core/2.9.1/org/apache/lucene/search/Similarity.java#Similarity.lengthNorm(java.lang.String,int)

    其中lucene用1个byte来存储fieldLength这个float值,默认用3位bit来区分这个值,其最小单位为0.125,导致term数量为5或者6时,或者term数量为12或者15时,得到的fieldLength的值都相同,从而造成了精度损失。

 

修改fieldLength的存储方式,默认为SmallFolat.floatToByte315, 这里修改源代码,将org.apache.lucene / lucene-core中的org.apache.lucene.search.Similarity中的

private static final float[] NORM_TABLE new float[256];

 

  static {

    for (int i = 0; i < 256; i++)

      NORM_TABLE[i] = SmallFloat.byte315ToFloat((byte)i);

 }


 将NORM_TABLE初始化为SmallFloat.byte52ToFloat((byte)i),并且将 similarity类中的encodeNormValue函数中对应修改为:

return SmallFloat.floatToByte52((boost / (float) Math.sqrt(length)));

从而提高fieldLength(part of fieldNorm)的存储精度。最终生成新的lucene-core-3.6.0.jar文件替换掉solr模块中的对应文件。 

这里用的lucene版本为3.6.0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值