solr fieldLength fieldNorm精度影响搜索结果的得分

最新推荐文章于 2019-11-01 19:17:02 发布

Kehl

最新推荐文章于 2019-11-01 19:17:02 发布

阅读量2.2k

点赞数

分类专栏： solr

本文链接：https://blog.csdn.net/Oliverkehl/article/details/20128101

版权

solr 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

1.USolr.jar 中修正了edismax默认如果查询中有空格，这个空格代表的意思是and，所以需要手动将空格用正则表达式替换为单个空格，然后再将单个空格替换为" or "，从而满足 query “复旦大学枫林图书馆” 时不会出现垃圾结果，儿应该使复旦大学张江图书馆等类似信息靠前。

2.将索引中所有XX人民政府的信息全部删除并且重新建立索引，将“人民”二字剔除并存储到别名var_alias_chinese这个field中，同时将var_alias_chinese作为copyfield选项，索引建立到text中。

3.搜索“农家乐土菜”，“农家乐土菜苑”的得分和“农家乐土菜”相同，而经测试，fieldNorm是make sense的，经查询，问题出在存储fieldLength()的精度precision上，fieldLength = 1/(Math.sqrt(numTerms)), 其中numTerms代表这个查询结果中切分出的term的数量。Solr采用Lucene的评分机制Similarity，参考source code

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.lucene/lucene-core/2.9.1/org/apache/lucene/search/Similarity.java#Similarity.lengthNorm(java.lang.String,int)

其中lucene用1个byte来存储fieldLength这个float值，默认用3位bit来区分这个值，其最小单位为0.125，导致term数量为5或者6时，或者term数量为12或者15时，得到的fieldLength的值都相同，从而造成了精度损失。

修改fieldLength的存储方式，默认为SmallFolat.floatToByte315, 这里修改源代码，将org.apache.lucene / lucene-core中的org.apache.lucene.search.Similarity中的

private static final float[] NORM_TABLE = new float[256];

  static {

    for (int i = 0; i < 256; i++)

      NORM_TABLE[i] = SmallFloat.byte315ToFloat((byte)i);

 }

将NORM_TABLE初始化为SmallFloat.byte52ToFloat((byte)i)，并且将 similarity类中的encodeNormValue函数中对应修改为：

return SmallFloat.floatToByte52((boost / (float) Math.sqrt(length)));

从而提高fieldLength(part of fieldNorm)的存储精度。最终生成新的lucene-core-3.6.0.jar文件替换掉solr模块中的对应文件。

这里用的lucene版本为3.6.0

Kehl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
solr fieldLength fieldNorm精度影响搜索结果的得分

1.USolr.jar 中修正了edismax默认如果查询中有空格，这个空格代表的意思是and，所以需要手动将空格用正则表达式替换为单个空格，然后再将单个空格替换为" or "，从而满足 query “复旦大学枫林图书馆” 时不会出现垃圾结果，儿应该使复旦大学张江图书馆等类似信息靠前。2.将索引中所有XX人民政府的信息全部删除并且重新建立索引，将“人民”二字剔除并存储到别名var_al
复制链接

扫一扫

专栏目录