1 查询词扩展对文本检索的影响
查询词与文档之间的相似性匹配是文本检索的核心问题。其查询基础是查询条件中的一
个词语与被匹配文档中相应词语之间的匹配。传统的文本检索模型假定词与词之间是孤
立的,查询词与文档中相应词语之间的匹配与各自的上下文词语无关。已有研究表明,
在相似性匹配过程中对上下文词语的忽略,在一定程度上影响了检索系统的检索性能,
解决这一问题的方式就是利用查询词扩展策略。如,当查询词包含“河北省”时,忽略包
含词“冀”的文本显然是不合理。查询词扩展不仅能够提高文本检索准确的程度,同时也
给已查询出文本的Text-rank提供更加可靠的依据。
2 查询词扩展策略
根据语言学家Zeling Harris 的理论:具有相似分布的词趋向于有相同的词义。也就是说
频繁共现在文档中的词具有相同的主题是具有统计相关性的。因此词语是否共现与文档
中是查询词扩展策略的一个依据。
查询词序列
Q = < q
1
,q
2
,..,q
s
>,(s>=1),q
i
为查询词。
文本库记为T,每个文本由一个词的序列表示,每个词有相应的权值。
将查询词序列Q扩展的步骤如下:
1:设SM中词w与关键字q至少共现一次,则q,w的上下文关系度为:
其中,|SM|为文本库中词的个数,|<q,w>|表示文本库中与关键字q至少共现一次的词的数量。
由1可看出,q,w关系度与两者共现的文本个数成正比,并且与q共现的词越多该值越小
(好比小强喜欢所有的水果,小哥只喜欢苹果,则小哥与苹果的关系较之小强与苹果的
关系更加密切)。
2:记词w对查询词q的贡献为weight
q,w
2式表示的含义为,w与q的关系度占所有词对q关系度之和的比例越大则w对q的贡献越大。
3:计算q与w的相关度。
一个文本中随着句子之间的距离增大,两个词之间的关联关系就会表现的越来越弱。
令d(q,w)表示查询词q与词w之间的距离,
λ
是影响因子,则q与w的相关度sim(q,w)为:
3式表示的含义为,同一文本中离q越近的词与q有越高的相关度。
4:由3式给出的相关度计算公式,可以计算出查询词序列Q的扩展查询词序列。实际应用
中往往给定一个阀值来限制查询词扩展序列。
参考文献:基于查询词扩展的文本检索算法研究