阅读笔记:Detecting Near-Duplicates for Web Crawling

本文探讨了Google工程师在2007年提出的用于Web抓取的近似重复网页检测方法。文章重点介绍了SimHash算法,通过降维技术将网页内容映射为指纹,以识别内容相似但不完全相同的网页。此外,还讨论了如何在大规模指纹集合中高效地查找Hamming距离不超过k的指纹,提出了使用多个指纹表的策略。尽管存在压缩和分布式存储的相关内容,但文章主要集中在SimHash算法和快速近似重复检测上。
摘要由CSDN通过智能技术生成

既然建了这个博客,就坚持记录一下自己专业方面的学习吧。决定从今天开始,对那些阅读的较为详细的论文做笔记,通过这种方式来加深记忆和理解,当然如果能做个presentation就更好了,不过那要花不少时间准备,而且作为旁听者,实在是不好和选课的人争啊,呵呵。

 


 

第一篇是Detecting Near-Duplicates for Web Crawling,这是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章,主要解决的问题是相似内容的网页的识别。

 

问题背景

在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页的content一样的时候,就称其为Near-Duplicates,这比传统的网页比对又智能了一些,因为毕竟一模一样的网页的概率是很小的,大部分的相似网页都会存在一些细节的变化,而如何进行这种判定就是一个本文要解决的一个问题。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值