网页去重-算法篇

最新推荐文章于 2019-04-30 17:01:56 发布

beta2

最新推荐文章于 2019-04-30 17:01:56 发布

阅读量1.4w

点赞数 2

文章标签：算法文档 random token vector algorithm

本文链接：https://blog.csdn.net/beta2/article/details/5014530

版权

本文详细探讨了网页去重的几种算法，包括I-Match、Shingling、SimHashing、Random Projection和SpotSig。I-Match算法通过hash处理文档中的单词，但稳定性较差；Shingling考虑了单词顺序，通过计算交集和并集评估相似性；SimHashing利用LSH处理文档特征；Random Projection关注单词频率；SpotSig则聚焦于文档中的语义词汇。

摘要由CSDN通过智能技术生成

前一篇提到了5个解决网页去重的算法，这里我想讨论下这些算法

1. I-Match

2. Shingliing

3. SimHashing（ locality sensitive hash）

4. Random Projection

5. SpotSig

6. combined

I-Match算法
I-Match算法有一个基本的假设说：不经常出现的词和经常出现的词不会影响文档的语义，所以这些词是可以去掉的。
算法的基本思想是：将文档中有语义的单词用hash的办法表示成一个数字，数字的相似性既能表达文档的相似性
算法的框架是：
1. 获取文档（或者是主体内容）
2. 将文档分解成token流，移除格式化的标签
3. 使用term的阈值（idf），保留有意义的tokens
4. 插入tokens到升序排列的排序树中
5. 计算tokens的SHA1
6. 将元组（doc_id,SHA hash) 插入到某一词典中，如果词典有冲突，这两个文档相似。

算法有一个缺点是稳定性差。如果文档的某个词改变了，最终的hash值就会发生显著的变化。对空文档，算法是无效的。
有一个解决办法是，用随机化的方法，参考Lexicon randomization for near-duplicate detection with I-Ma