既然建了这个博客,就坚持记录一下自己专业方面的学习吧。决定从今天开始,对那些阅读的较为详细的论文做笔记,通过这种方式来加深记忆和理解,当然如果能做个presentation就更好了,不过那要花不少时间准备,而且作为旁听者,实在是不好和选课的人争啊,呵呵。
第一篇是Detecting Near-Duplicates for Web Crawling,这是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章,主要解决的问题是相似内容的网页的识别。
问题背景:
在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页的content一样的时候,就称其为Near-Duplicates,这比传统的网页比对又智能了一些,因为毕竟一模一样的网页的概率是很小的,大部分的相似网页都会存在一些细节的变化,而如何进行这种判定就是一个本文要解决的一个问题。