网页去重-算法篇

本文详细探讨了网页去重的几种算法,包括I-Match、Shingling、SimHashing、Random Projection和SpotSig。I-Match算法通过hash处理文档中的单词,但稳定性较差;Shingling考虑了单词顺序,通过计算交集和并集评估相似性;SimHashing利用LSH处理文档特征;Random Projection关注单词频率;SpotSig则聚焦于文档中的语义词汇。
摘要由CSDN通过智能技术生成

前一篇提到了5个解决网页去重的算法,这里我想讨论下这些算法

1. I-Match

2. Shingliing

3. SimHashing( locality sensitive hash)

4. Random Projection

5. SpotSig

6. combined

I-Match算法
I-Match算法有一个基本的假设说:不经常出现的词和经常出现的词不会影响文档的语义,所以这些词是可以去掉的。
算法的基本思想是:将文档中有语义的单词用hash的办法表示成一个数字,数字的相似性既能表达文档的相似性
算法的框架是:
1. 获取文档(或者是主体内容)
2. 将文档分解成token流,移除格式化的标签
3. 使用term的阈值(idf),保留有意义的tokens
4. 插入tokens到升序排列的排序树中
5. 计算tokens的SHA1
6. 将元组(doc_id,SHA hash) 插入到某一词典中,如果词典有冲突,这两个文档相似。

算法有一个缺点是稳定性差。如果文档的某个词改变了,最终的hash值就会发生显著的变化。对空文档,算法是无效的。
有一个解决办法是,用随机化的方法,参考Lexicon randomization for near-duplicate detection with I-Ma

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值