网页去重——Shingling 算法

最新推荐文章于 2020-05-27 10:48:46 发布

pstar

最新推荐文章于 2020-05-27 10:48:46 发布

阅读量2.4k

点赞数

分类专栏： Data Mining 文章标签：算法 search engine algorithm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c289054531/article/details/8082952

版权

Data Mining 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

shingling算法用于计算两个文档的相似度，例如，用于网页去重。维基百科对w-shingling的定义如下：

In natural language processing a w-shingling is a set of unique "shingles"contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The w denotes the number of tokens in each shingle in the set.

维基百科用一个浅显的例子讲解了shingling算法的原理。

比如，一个文档 "a rose is a rose is a rose" ,分词后的词汇(token，语汇单元)集合是:(a,rose,is,a,rose,is, a, rose)

那么w=4的4-shingling就是集合: { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose）}

去掉重复的子集合： { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

给定shingle的大小,两个文档A和B的相似度 r 定义为: r(A,B)=|S(A)∩S(B)|/|S(A)∪S(B)| ,其中|A|表示集合A的大小。因此,相似度是介于0和1之间的一个数值，且r(A,A)=1,即一个文档和它自身 100%相似。
假设A([b1,…,bm])是包含m个二进制字符的二进制字符串，那么可以根据A构造相应的(m-1)度的多项式如下，其中t是不定元。

A(t)=b1tm-1 + b2tm-2+…+bm-1t+bm (1)

给定一个度为k的多项式P(t)，如下：

P(t)=a1tk+a2tk-1+…+ak-1t+ak (2)

那么A(t) 除以P(t)的余数f (t)的度数为(k-1)。对于给定的字符串A，定义A的指纹f(A)如下：

f(A)=A(t) mod P(t) (3)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页去重——Shingling 算法

shingling算法用于计算两个文档的相似度，例如，用于网页去重。维基百科对w-shingling的定义如下： In natural language processing a w-shingling is a set of unique "shingles"contiguous subsequences of tokens in a document —that can be used t
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。