回答关于网页重排的问题

最新推荐文章于 2024-03-10 14:19:33 发布

pennyliang

最新推荐文章于 2024-03-10 14:19:33 发布

阅读量1.2k

点赞数

文章标签：文档 random 2010 url query

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pennyliang/article/details/5879049

版权

人民搜索的同事问我此前写的网页重排的博客，其实用【网页重排 pennyliang】就可以搜索到，http://blog.csdn.net/pennyliang/archive/2010/08/02/5781847.aspx。

在WWW2010大会上，有一篇论文写的很好，总结了这方面的方法，也提出了新的方法：

Scalable Techniques for Document Identifier Assignment in Inverted Indexes

这个问题基本是这样的：

在做索引的过程中，文档号的分配和最终倒排表制作出来的大小和query的效率有非常大的影响。本质上来说，这是由于关键词的高维空间决定的，我们可以想象每个关键词是一个维，那么如果有30万词汇的话，就是一个30万维的空间，每个文档做出的一个正排表，可以想象成这个高维空间的一个点。变成倒排表后，如果文档数是10B（100亿），可以看做是一个关键词在这个10B高维空间的一个点，而要想让每个维上的投影都是致密的是不现实的，不难得到，最多只有3个关键词可以做到doclist上的docid完全连续，即全部gap=1。

解决的办法基本有这样一些：

（1）做聚类，分类，用类别的信息，让同一类的doc连续分配docid。

（2）简单的按URL排序，因为URL近似的网页内容也大多相似，这样可以节省分类聚类的开销

（3）直接用网页抓取的顺序，也就是近似random的顺序。

WWW2010的这篇论文提出了新的方法，实验效果也更佳，可以借鉴参考，我原来以为这个坑挖到头了，没想到还能有突破。

如果无法下载这篇论文，可以给我留个邮箱。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
回答关于网页重排的问题

人民搜索的同事问我此前写的网页重排的博客，其实用【网页重排 pennyliang】就可以搜索到，
复制链接

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。