文本相似去重 SimHash

最新推荐文章于 2022-07-06 10:55:57 发布

Notzuonotdied

最新推荐文章于 2022-07-06 10:55:57 发布

阅读量445

点赞数

分类专栏： Algorithm 文章标签： SimHash 相似大数据文本

本文链接：https://blog.csdn.net/Notzuonotdied/article/details/97699728

版权

Algorithm 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

前言

SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种指纹生成算法或者叫指纹提取算法，被Google广泛应用在亿级的网页去重的Job中，作为Locality Sensitive Hash（局部敏感哈希）的一种，其主要思想是降维。

原理

在这里插入图片描述

步骤	说明
分词	从Doc中抽取多个关键词，与对应计算权重组成键值对，如（关键词，权重）。
哈希	将关键词哈希，与对应计算权重组成键值对，如（Hash，权重）。
逐位处理	$1, 0, 0, 1, 1, 0 \times w = w, - w, - w, w, w, - w$ 逐位相乘，如果哈希值为1则为正数，为0则为负数。
按位相加	$1, 0, 0, 1, 1, 0 + 1, 1, 0, 0, 0, 0 = 2, 1, 0, 1, 1, 0$ ，按位相加。