网页去重-比较文本的相似度-Near duplication detection

本文探讨了网页去重的必要性和挑战,包括四种类型的重复内容:full-layout, full-content, partial-layout, partial-content duplicates。针对此问题,提出了通过抽取主体内容、计算相似度和聚类的方法来解决。主要算法包括I-Match、Shingling、Locality Sensitive Hashing (SimHash)等。" 44900601,1152676,使用队列简化Unix文件路径,"['队列', 'LeetCode', '路径处理', 'Java']
摘要由CSDN通过智能技术生成

near duplicate detection 的任务是检测重复的内容,这项工作在搜索引擎,版权保护,信息展示等方面都有很好的应用。在搜索引擎上,主要是去掉重复的页面,图片,文件,文档等等。下面就指讨论网页的deduplication。

 

问题是什么?

    据统计,网页上的大部分相同的页面占29%,而主体内容完全相同的占22%,这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript,文献[Models and Algorithms for Duplicate Document Detection 1999]将内容重复归结为以下四个类型:

1.如果2篇文档内容和格式上毫无差别,则这种重复叫做

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值