simhash算法原理

  谷歌通过simhash算法来对重复的网页进行去重,因此产生了simhash算法

 

  simhash算法主要是针对长文本的相似度,节省时间而创立的

  算法主要分为五步:

  1.分词  对文本分词,提取特征词并计算tfidf值;

  2.哈希  对特征词进行哈希编码,比如把一个词“X”变为100001的方式,

  3.加权  乘以它的权重,假如X的权重为5,则X的编码为5 -5 -5 -5 -5 5;

  4.合并  把同一个文本的所有的特征词的向量进行相加最终形成一个的向量,比如(5 -5 -5 -5 -5 5) 加上 (-4 4 4 -4 -4 4)等于(1 -1 -1 -9 -9 9)

  5.降纬  把合并之后的向量转化为01向量,每一个大于0的记为1,小于0的记为0,则上述向量变为1 0 0 0 0 1

  为每一个文本生成一个哈希编码后,对后来的文章进行比较,通过比较两个哈希编码中按位取异或(也叫海明距离),如果结果小于3(这个数值是大家试验出来的),则认为两篇文本相似。

 

转载于:https://www.cnblogs.com/lihongda/p/8626277.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值