阅读笔记:Detecting Near-Duplicates for Web Crawling

既然建了这个博客,就坚持记录一下自己专业方面的学习吧。决定从今天开始,对那些阅读的较为详细的论文做笔记,通过这种方式来加深记忆和理解,当然如果能做个presentation就更好了,不过那要花不少时间准备,而且作为旁听者,实在是不好和选课的人争啊,呵呵。

 


 

第一篇是Detecting Near-Duplicates for Web Crawling,这是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章,主要解决的问题是相似内容的网页的识别。

 

问题背景

在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页的content一样的时候,就称其为Near-Duplicates,这比传统的网页比对又智能了一些,因为毕竟一模一样的网页的概率是很小的,大部分的相似网页都会存在一些细节的变化,而如何进行这种判定就是一个本文要解决的一个问题。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值