位置信息倒排索引K词近邻搜索算法实现

最新推荐文章于 2022-11-15 11:28:15 发布

疯狂的轮子搬运工

最新推荐文章于 2022-11-15 11:28:15 发布

阅读量2.6k

点赞数 1

分类专栏：信息检索文章标签： java 搜索索引倒排记录信息检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Necstyle/article/details/38156991

版权

位置信息索引是在倒排索引的基础上实现的，在倒排记录表中添加了词项在文档中的位置信息。位置信息一般以下面的方式存储到倒排记录中：

文档ID：（位置1，位置2，…）

而完整的包含位置信息的倒排记录表如下图所示：

以图中一个倒排记录为例，to是此项，993427为to的文档频率，即在993427篇文档中出现。最外层的括号中，1,2,4,5,7是包含to的文档ID，这里只列出5个，文档ID后是to的词频，即to在文档中出现的次数。最后内层的括号中即to在文档中的位置信息，以对文档开头的偏移量来表示。有了这“强化”过后的倒排索引表，我们可以对倒排索引查询的功能进行扩展。而这次我带来的是基于位置信息的倒排索引K词近邻搜索算法的实现，具体的含义就是对两个词项进行搜索，可规定两个词项在文档中的间隔。

举个例子：某个查询为to be or not to be，我们只看to be，to与be是挨着的，也就是说间隔k为0个词。首先，查找同时包含这两个词项的文档；然后，检查表中的位置看看是否有某个be的前面一个词条位置上正好出现to。下面中给出的倒排记录表中，可能存在的一个匹配为：

to: 〈. . . ; 4: 〈. . . ,429,433〉; . . . 〉
	be: 〈. . . ; 4: 〈 . . ,430,434〉; . . . 〉

本文中给出的算法来源于《信息检索导论》一书中，王斌翻译，书中给出了算法伪代码。另外我的算法实现是在课程结束之后完成的，JAVA写的，只是很单纯的实现，代码写得也比较差劲，不值得拿来做研究使用，只是贴出来给大家进行参考。下面给出代码和索引文件。

import java.io.*;
import java.util.ArrayList;
import java.util

最低0.47元/天解锁文章

疯狂的轮子搬运工

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
位置信息倒排索引K词近邻搜索算法实现

位置信息索引是在倒排索引的基础上实现的，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。