阅读笔记:Detecting Near-Duplicates for Web Crawling

最新推荐文章于 2022-08-03 11:56:09 发布

eaglex

最新推荐文章于 2022-08-03 11:56:09 发布

阅读量5.5k

点赞数

分类专栏：信息检索文章标签： web 算法分布式存储 distance 数据挖掘文档

本文链接：https://blog.csdn.net/eaglex/article/details/6297684

版权

本文探讨了Google工程师在2007年提出的用于Web抓取的近似重复网页检测方法。文章重点介绍了SimHash算法，通过降维技术将网页内容映射为指纹，以识别内容相似但不完全相同的网页。此外，还讨论了如何在大规模指纹集合中高效地查找Hamming距离不超过k的指纹，提出了使用多个指纹表的策略。尽管存在压缩和分布式存储的相关内容，但文章主要集中在SimHash算法和快速近似重复检测上。

摘要由CSDN通过智能技术生成

既然建了这个博客，就坚持记录一下自己专业方面的学习吧。决定从今天开始，对那些阅读的较为详细的论文做笔记，通过这种方式来加深记忆和理解，当然如果能做个presentation就更好了，不过那要花不少时间准备，而且作为旁听者，实在是不好和选课的人争啊，呵呵。

第一篇是Detecting Near-Duplicates for Web Crawling，这是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章，主要解决的问题是相似内容的网页的识别。

问题背景：

在互联网中有很多的网页的内容(content)是一样的，但是他们的网页元素却不是完全相同的，因为每个域名下的网页总会有一些自己的东西，比如广告(advertisement)、导航栏、网站版权之类的东西，但是对于搜索引擎来讲，只有内容部分才是有意义的，而后面的那些虽然不同，但是对搜索结果没有任何影响，所以在判定内容是否重复的时候，应该忽视后面的部分，当新爬取的content和数据库中的某个网页的content一样的时候，就称其为Near-Duplicates，这比传统的网页比对又智能了一些，因为毕竟一模一样的网页的概率是很小的，大部分的相似网页都会存在一些细节的变化，而如何进行这种判定就是一个本文要解决的一个问题。