在lucene的ranking算法中使用Language Model

最新推荐文章于 2024-09-21 10:50:06 发布

gris0509

最新推荐文章于 2024-09-21 10:50:06 发布

阅读量2.5k

点赞数

分类专栏：搜索引擎文章标签： lucene 算法文档 query google 语言

本文链接：https://blog.csdn.net/gris0509/article/details/4860838

版权

搜索引擎专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近，网体作业要求改进Lucene的ranking算法，我使用了语言模型来进行改进，下面都是我个人的想法，很多地方还不成熟。

Lucence的ranking算法是基于VSM模型的，把文档和查询表示成向量空间模型中的向量，通过计算向量之间的余弦值来给文档排序。在这里，ranking算法使用Language Model来替代。

1、Language Model的思想

把query的产生当作一个随机过程，每个文档看成是一个语言模型生成的，估计每个文档模型产生这个query的概率，根据这个概率对文档排序。概率公式如下：

P(Q,d)=p(d)p(Q|d)≈p(d)p(Q|M_d)

因为p(d)=1/|doc|，每个doc的概率都相同，所以可以省略。

p(Q|M_d)用最大似然估计，p(Q|M_d)= ，其中tf(t,d)表示term t在文档d中出现的次数，表示文档d中总词数。

因为数据不足可能出现tf(t,d)=0导致概率为0，因此采用文档多项式分布和集合多项式分布的混合模型，。

所以，最后得到计算公式p(Q|M_d)= 。

2、代码修改

tf(t,d)在VSM中已经计算，可以直接用，主要需要计算。

（1） Lucene的搜索排序主要在IndexSearch.search()方法里完成。在search方法中，调用Weight.scorer()得到一个Scorer，然后调用Scorer的score方法，就完成了排序。因此，我们的代码修改主要在Weight.scorer()和Scorer.score()中。

（2）得到

这是整个改进过程中最麻烦的地方，因为VSM中没有用到文档的词数，在一番搜索之后，我发现TermFreqVector中存储了每个term的频率，只要把它相加就是文档的词数。但是调用了indexReader.getTermFreqVectors()得到的却是null，也就是说建索引的时候没有构造TermFreqVector。在Google论坛上求助无果之后，我开始分析索引代码，打算在建索引的时候统计出文档的词数。代码如下：

FieldInvertState的字段length是一个字段的所有词数，通过它也可以统计出一个文档的总次数。但是需要修改索引的代码，还涉及到读写磁盘，修改的代码量比较大。就在这时，Google论坛上有同学介绍了TermFreqVector的使用方法，非常感谢这位同学，使用了TermFreqVector后，只需要修改几十行代码就可以实现语言模型。Lucene默认建索引时不构造TermFreqVector，需要在添加Field进document里时，添加Field.TermVcoter.YES参数，这样就可以使用TermFreqVector了。