文本(微博,短信等)检索——查询词扩展

1 查询词扩展对文本检索的影响

查询词与文档之间的相似性匹配是文本检索的核心问题。其查询基础是查询条件中的一
个词语与被匹配文档中相应词语之间的匹配。传统的文本检索模型假定词与词之间是孤
立的,查询词与文档中相应词语之间的匹配与各自的上下文词语无关。已有研究表明,
在相似性匹配过程中对上下文词语的忽略,在一定程度上影响了检索系统的检索性能,
解决这一问题的方式就是利用查询词扩展策略。如,当查询词包含“河北省”时,忽略包
含词“”的文本显然是不合理。查询词扩展不仅能够提高文本检索准确的程度,同时也
给已查询出文本的Text-rank提供更加可靠的依据。

2 查询词扩展策略

根据语言学家Zeling Harris 的理论:具有相似分布的词趋向于有相同的词义。也就是说
频繁共现在文档中的词具有相同的主题是具有统计相关性的。因此词语是否共现与文档
中是查询词扩展策略的一个依据。

查询词序列   Q = < q 1 ,q 2 ,..,q s >,(s>=1),q i 为查询词。
文本库记为T,每个文本由一个词的序列表示,每个词有相应的权值。

其中

将查询词序列Q扩展的步骤如下:
1:设SM中词w与关键字q至少共现一次,则q,w的上下文关系度为:
其中,|SM|为文本库中词的个数,|<q,w>|表示文本库中与关键字q至少共现一次的词的数量。
其中n(q,w) 表示SM中包含着两个词的文本数。

由1可看出,q,w关系度与两者共现的文本个数成正比,并且与q共现的词越多该值越小
(好比小强喜欢所有的水果,小哥只喜欢苹果,则小哥与苹果的关系较之小强与苹果的
关系更加密切)。
2:记词w对查询词q的贡献为weight q,w
2式表示的含义为,w与q的关系度占所有词对q关系度之和的比例越大则w对q的贡献越大。

3:计算q与w的相关度。
一个文本中随着句子之间的距离增大,两个词之间的关联关系就会表现的越来越弱。
令d(q,w)表示查询词q与词w之间的距离, λ 是影响因子,则q与w的相关度sim(q,w)为:
3式表示的含义为,同一文本中离q越近的词与q有越高的相关度。

4:由3式给出的相关度计算公式,可以计算出查询词序列Q的扩展查询词序列。实际应用
中往往给定一个阀值来限制查询词扩展序列。


参考文献:基于查询词扩展的文本检索算法研究


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值