1. BM25算法
BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:
∑ 
其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。
K1通常为1.2,通常为0-1000
K的形式较为复杂
K=
上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.75
本文介绍了BM25算法,它是Lucene搜索引擎的一种改进得分算法。BM25通过考虑文档长度和词频来计算相关性。在Lucene中,通过修改默认的相似性函数,将TF-IDF与BM25结合,利用HashMap存储文档长度信息,实现了BM25的计算。在计算过程中,还保留了原有的fieldNorm值以保持查询效果。
1. BM25算法
BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:
∑ 
其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。
K1通常为1.2,通常为0-1000
K的形式较为复杂
K=
上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.75

被折叠的 条评论
为什么被折叠?