位置信息倒排索引K词近邻搜索算法实现

位置信息索引是在倒排索引的基础上实现的,在倒排记录表中添加了词项在文档中的位置信息。位置信息一般以下面的方式存储到倒排记录中:

文档ID:(位置1,位置2,…)
而完整的包含位置信息的倒排记录表如下图所示:

图中一个倒排记录为例,to是此项,993427为to的文档频率,即在993427篇文档中出现。最外层的括号中,1,2,4,5,7是包含to的文档ID,这里只列出5个,文档ID后是to的词频,即to在文档中出现的次数。最后内层的括号中即to在文档中的位置信息,以对文档开头的偏移量来表示。有了这“强化”过后的倒排索引表,我们可以对倒排索引查询的功能进行扩展。而这次我带来的是基于位置信息的倒排索引K词近邻搜索算法的实现,具体的含义就是对两个词项进行搜索,可规定两个词项在文档中的间隔。

举个例子:某个查询为to be or not to be,我们只看to be,to与be是挨着的,也就是说间隔k为0个词。首先,查找同时包含这两个词项的文档;然后,检查表中的位置看看是否有某个be的前面一个词条位置上正好出现to。下面中给出的倒排记录表中,可能存在的一个匹配为:

to: 〈. . . ; 4: 〈. . . ,429,433〉; . . . 〉
	be: 〈. . . ; 4: 〈 . . ,430,434〉; . . . 〉

本文中给出的算法来源于《信息检索导论》一书中,王斌翻译,书中给出了算法伪代码。另外我的算法实现是在课程结束之后完成的,JAVA写的,只是很单纯的实现,代码写得也比较差劲,不值得拿来做研究使用,只是贴出来给大家进行参考。下面给出代码和索引文件。

import java.io.*;
import java.util.ArrayList;
import java.util
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值