改进索引压缩(网页重排)-Document Reordering

在任意一个索引节点需要做索引的时候,都需要给每个网页分配一个唯一的ID号,简称docid。

DOCID的分配可以是随机的,或者按照爬虫自然的抓取顺序(这样在做索引时比较简便)。

然而,为了更好的支持early termination,使得在求交过程中尽快的结算,需要将docid按照PR(PageRank)值进行排序。

同时,为了获得更好的压缩效果,需要将相似的文档的文档号尽可能靠近,以获得更小的d-gap(Document Gap)。

 

因此这就引出了在做索引前进行重排(Document Reordering)的需求,Reordering最早的提法可能来自于【2】。但是目前的论文主要讨论关于压缩比的问题,而没有关于按PR排序的介绍。

 

本文就网页重排进行一些深入的探讨。

 

在爬虫抓取完网页后,我们可以得到一个网页库,简单来说我们可以认为存在这样两个结构。

key file和data file

其中keyfile存放[Docid,PageRank,URL,CategoryID,Others,Location_of_datafile],其中PageRank数值由计算PR的系统进行重填(refill)。

其中data file按抓取顺序存放每个网页,这些网页进行了结构化的加工(并不是HTML格式)。

 

对于keyfile第一轮可以对URL进行排序

第二轮,第三轮采用稳定的排序方法(类似基数排序)对CategoryIDPageRank进行排序(先CID,再PR,注意排序的顺序),由于Pagerank和CategoryID均为1-N整数(google PageRank为0-10),CategoryID可以采用一些线性分类的方法计算并事先refill进这个结构。

 

排序后,按照Location_of_datafile的指引读取网页数据,按顺序进行后续的分词索引工作,排序第一的文档序号为1,以下依次按序分配DOCID。虽然,这样处理对于datafile的访问无法做到随机访问,但如果在文件数量较小,文件读取,缓存,内核等参数调整比较好的情况下,可以获得较好的随机读取效率。

 

通过以上处理,可以将高PageRan的docid,且相似的文档致密的排放到一起,在query和压缩比上都获得满意的提升。

 

关于DOCUMENT REORDERING,论文【3】包含了目前最新的研究成果,相关数据可以参考。

 

推荐阅读:

【1】Sorting Out the Document Identifier Assignment Problem

【2】Index Compression through Document Reordering

【3】http://www2009.org/proceedings/pdf/p401.pdf

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值