1.USolr.jar 中修正了edismax默认如果查询中有空格,这个空格代表的意思是and,所以需要手动将空格用正则表达式替换为单个空格,然后再将单个空格替换为" or ",从而满足 query “复旦大学 枫林 图书馆” 时不会出现垃圾结果,儿应该使复旦大学张江图书馆等类似信息靠前。
2.将索引中所有XX人民政府的信息全部删除并且重新建立索引,将“人民”二字剔除并存储到别名var_alias_chinese这个field中,同时将var_alias_chinese作为copyfield选项,索引建立到text中。
3.搜索“农家乐土菜”,“农家乐土菜苑”的得分和“农家乐土菜”相同,而经测试,fieldNorm是make sense的,经查询,问题出在存储fieldLength()的精度precision上,fieldLength = 1/(Math.sqrt(numTerms)), 其中numTerms代表这个查询结果中切分出的term的数量。Solr采用Lucene的评分机制Similarity,参考source code
修改fieldLength的存储方式,默认为SmallFolat.floatToByte315, 这里修改源代码,将org.apache.lucene / lucene-core中的org.apache.lucene.search.Similarity中的
private
static {
for (int i = 0; i < 256; i++)
NORM_TABLE[i] = SmallFloat.byte315ToFloat((byte)i);
}
将NORM_TABLE初始化为SmallFloat.byte52ToFloat((byte)i),并且将 similarity类中的encodeNormValue函数中对应修改为:
return SmallFloat.floatToByte52((boost / (float) Math.sqrt(length)));
从而提高fieldLength(part of fieldNorm)的存储精度。最终生成新的lucene-core-3.6.0.jar文件替换掉solr模块中的对应文件。
这里用的lucene版本为3.6.0