Lucene评分
评分越高,意味着文档相关度越高,对查询结果更匹配。
同一文档不通查询得分不具备可比性,不同查询返回同一文档的得分也不具备可比性
文档得分考虑一下因子:
- 文档权重:索引期赋予文档的权重值
- 字段权重:查询期赋予某个字段的权重值
- 协调因子:基于文档中词项命中个数的协调因子,一个文档命中了查询中的词项越多,得分越多
- 逆文档频率:倒排索引中频率越低,词项越罕见
- 长度范数:一个字段包含词项越多,权重越低,词项越少越好
- 词频:词项在某个文档中出现次数,越多越高
- 查询范数:不同查询的得分参考
总结
- 越罕见的词项匹配
- 文档字段越短
- 权重越高