文本(微博，短信等)检索——查询词扩展

最新推荐文章于 2022-03-31 16:43:56 发布

冬浓

最新推荐文章于 2022-03-31 16:43:56 发布

阅读量2.1k

点赞数 1

分类专栏：自然语言处理(natural language proce) 文章标签：自然语言处理查询词扩展文本检索微博检索短信检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongnongde/article/details/26347669

版权

自然语言处理(natural language proce) 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1 查询词扩展对文本检索的影响

查询词与文档之间的相似性匹配是文本检索的核心问题。其查询基础是查询条件中的一

个词语与被匹配文档中相应词语之间的匹配。传统的文本检索模型假定词与词之间是孤

立的，查询词与文档中相应词语之间的匹配与各自的上下文词语无关。已有研究表明，

在相似性匹配过程中对上下文词语的忽略，在一定程度上影响了检索系统的检索性能，

解决这一问题的方式就是利用查询词扩展策略。如，当查询词包含“河北省”时，忽略包

含词“冀”的文本显然是不合理。查询词扩展不仅能够提高文本检索准确的程度，同时也

给已查询出文本的Text-rank提供更加可靠的依据。

2 查询词扩展策略

根据语言学家Zeling Harris 的理论：具有相似分布的词趋向于有相同的词义。也就是说

频繁共现在文档中的词具有相同的主题是具有统计相关性的。因此词语是否共现与文档

中是查询词扩展策略的一个依据。

查询词序列 Q = < q 1 ,q 2 ,..,q s >,(s>=1),q i 为查询词。

文本库记为T，每个文本由一个词的序列表示，每个词有相应的权值。

，其中

将查询词序列Q扩展的步骤如下：

1：设SM中词w与关键字q至少共现一次，则q，w的上下文关系度为：

其中，|SM|为文本库中词的个数，|<q,w>|表示文本库中与关键字q至少共现一次的词的数量。

，其中n(q,w) 表示SM中包含着两个词的文本数。

由1可看出，q，w关系度与两者共现的文本个数成正比，并且与q共现的词越多该值越小

（好比小强喜欢所有的水果，小哥只喜欢苹果，则小哥与苹果的关系较之小强与苹果的

关系更加密切）。

2：记词w对查询词q的贡献为weight q,w

2式表示的含义为，w与q的关系度占所有词对q关系度之和的比例越大则w对q的贡献越大。

3：计算q与w的相关度。

一个文本中随着句子之间的距离增大，两个词之间的关联关系就会表现的越来越弱。

令d(q,w)表示查询词q与词w之间的距离， λ 是影响因子，则q与w的相关度sim(q,w)为：

3式表示的含义为，同一文本中离q越近的词与q有越高的相关度。

4：由3式给出的相关度计算公式，可以计算出查询词序列Q的扩展查询词序列。实际应用

中往往给定一个阀值来限制查询词扩展序列。

参考文献：基于查询词扩展的文本检索算法研究

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
文本(微博，短信等)检索——查询词扩展

1 查询词扩展对文本检索的影响
复制链接

扫一扫

专栏目录

冬浓 CSDN认证博客专家 CSDN认证企业博客

码龄14年

4: 原创

56万+: 周排名

85万+: 总排名

2万+: 访问

: 等级

235: 积分

7: 粉丝

7: 获赞

3: 评论

1: 收藏

私信

关注

热门文章

分类专栏

最新评论

k近邻法（K-NN）
Francis-Leo: 学习了解一下
文本(微博，短信等)检索——查询词扩展
littlecrab123: 对了，从慧都控件网里面了解到dtSearch Engine里面有个文档过滤器的插件很强大，集成在软件中可以实现文档不用加密并且不是密匙，只是一些特殊字符。没想到还有这么一功能
文本(微博，短信等)检索——查询词扩展
littlecrab123: 学习下，不过觉得还是dtSearch Engine比较强大，检索时间快，还可以实现全文检索，以及对所有格式的检索。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。