SimHash算法原理

最新推荐文章于 2024-08-09 08:18:47 发布

海涛anywn

最新推荐文章于 2024-08-09 08:18:47 发布

阅读量1.7w

点赞数 4

分类专栏：自然语言处理算法

本文链接：https://blog.csdn.net/lihaitao000/article/details/52355704

版权

算法同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

自然语言处理

21 篇文章 1 订阅

订阅专栏

刚到公司项目中用到了simhash，但没有详细的了解，后来被问到原理，结果就狗带了。。

下面是自己查资料和自己的一些理解，不愧是google出品，比较符合google的风格，简单实用。

先贴一张网上的图片：

解释一下图片：这里feature可以指一篇文档分词后的某个词，即将文档中的某个词作为一个特征。weight是这个词的权重，这里可以是这个词在这个句子中出现的次数。

这里的hash算法就是传统的hash算法，通过调用一个hash函数实现的。

simhash是为了计算一篇文档之间的相似度存在的，通过simhash算法可以计算出文档的simhash值，通过各个文档计算出的二进制值来计算文档之间的汉明距离，然后根据汉明距离来比较文档之间的相似度。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。

simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：

分词
- 给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重（如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数）。例如给定一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN 博客结构之法算法之道的作者 July”，然后为每个特征向量赋予权值：CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。
hash
- 通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101，“博客”的hash值Hash(博客)为“101011”。就这样，字符串就变成了一系列数字。
加权
- 在hash值的基础上，给所有特征向量进行加权，即W = Hash * weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到：W(CSDN) = 100101*4 = 4 -4 -4 4 -4 4，给“博客”的hash值“101011”加权得到：W(博客)=101011*5 = 5 -5 5 -5 5 5，其余特征向量类似此般操作。
合并
- 将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。
降维
- 对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维（某位大于0记为1，小于0记为0），得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。