完整的来说,一下算法包括三个函数,分别是向量相似度基本算法,BM25,语言模型方法(Jelinek-Mercer平滑)或者叫线性插值LM
向量相似度基本算法公式为:
其中w表示权重,d表示文档。权重的计算公式为w= idf为逆文档频率
BM2公式为:
均长度。
其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75
语言模型方法(Jelinek-Mercer平滑)公式为:
其中w表示权重,d表示文档。权重的计算公式为w= idf为逆文档频率
BM2公式为:
均长度。
其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75
语言模型方法(Jelinek-Mercer平滑)公式为: