海量数据相似度搜索，如相似的网页、图像、文章、query 等相似性搜索

最新推荐文章于 2025-08-31 04:31:05 发布

原创最新推荐文章于 2025-08-31 04:31:05 发布 · 7.3k 阅读

7 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

4 篇文章

订阅专栏

本文介绍了局部敏感哈希（LSH）的基本原理及其应用场景，包括网页、文章、图像及音乐的相似性搜索。同时详细解释了SimHash算法的实现过程，并对比了MinHash与SimHash的区别。

参考资料：
https://blog.csdn.net/icvpr/article/details/12342159 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
http://grunt1223.iteye.com/blog/964564 simhash与重复信息识别
http://www.07net01.com/2015/08/907327.html minHash(最小哈希)和LSH(局部敏感哈希)
https://my.oschina.net/u/347386/blog/749891 相关文章汇总
https://blog.csdn.net/dm_ustc/article/details/45626907 MinHash与SimHash(讲区别和应用)

这里主要介绍一个方法：
LSH(局部敏感哈希)

LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。

也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。

LSH 的具体描述请跳转上面参考文章，主要再复述一下基于LSH 的海量数据相似的网页、图像、文章、query 等相似性搜索方法：

LSH的应用场景很多，凡是需要进行大量数据之间的相似度（或距离）计算的地方都可以使用LSH来加快查找匹配速度，下面列举一些应用：

（1）查找网络上的重复网页

互联网上由于各式各样的原因（例如转载、抄袭等）会存在很多重复的网页，因此为了提高搜索引擎的检索质量或避免重复建立索引，需要查找出重复的网页，以便进行一些处理。其大致的过程如下：将互联网的文档用一个集合或词袋向量来表征，然后通过一些hash运算来判断两篇文档之间的相似度，常用的有minhash+LSH、simhash。

（2）查找相似新闻网页或文章

与查找重复网页类似，可以通过hash的方法来判断两篇新闻网页或文章是否相似，只不过在表达新闻网页或文章时利用了它们的特点来建立表征该文档的集合。

（3）图像检索

在图像检索领域，每张图片可以由一个或多个特征向量来表达，为了检索出与查询图片相似的图片集合，我们可以对图片数据库中的所有特征向量建立LSH索引，然后通过查找LSH索引来加快检索速度。

（4）音乐检索

对于一段音乐或音频信息，我们提取其音频指纹（Audio Fingerprint）来表征该音频片段，采用音频指纹的好处在于其能够保持对音频发生的一些改变的鲁棒性，例如压缩，不同的歌手录制的同一条歌曲等。为了快速检索到与查询音频或歌曲相似的歌曲，我们可以对数据库中的所有歌曲的音频指纹建立LSH索引，然后通过该索引来加快检索速度。

（5）指纹匹配

一个手指指纹通常由一些细节来表征，通过对比较两个手指指纹的细节的相似度就可以确定两个指纹是否相同或相似。类似于图片和音乐检索，我们可以对这些细节特征建立LSH索引，加快指纹的匹配速度。

主要还涉及的几个概念：
simHash:（详见 http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html）
步骤：
1、分词，去噪，加权重：
我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。

2、hash：通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。

3、乘以权中，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。

4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。

5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。

这里写图片描述
特征权重，对于文本而言的话，可以用 TF-IDF 。

minHash:（详见 http://www.07net01.com/2015/08/907327.html）
步骤：
1. 构建集合特征矩阵
2. 对特征矩阵的行进行随机打乱
3. 某一列的最小哈希值就等于打乱后的这一列第一个值为1的行所在的行号

LSH 中常见的距离：

Jaccard distance （交集 / 并集）
Jaccard distance： (1 - Jaccard similarity)，而Jaccard similarity = (A intersection B) / (A union B)，Jaccard similarity通常用来判断两个集合的相似性。
Jaccard distance对应的 LSH hash function为：minhash，其是(d1,d2,1-d1,1-d2)-sensitive的。
Hamming distance （汉明距离）
Hamming distance：两个具有相同长度的向量中对应位置处值不同的次数。
Hamming distance对应的LSH hash function为：H(V) = 向量V的第i位上的值，其是(d1,d2,1-d1/d,1-d2/d)-sensitive 的。
simHash 也是一种 Hamming distance对应的 LSH hash function 。（猜的）
Cosine distance
Cosine distance：cos(theta) = A·B / |A||B| ，常用来判断两个向量之间的夹角，夹角越小，表示它们越相似。
Cosine distance对应的LSH hash function为：H(V) = sign(V·R)，R是一个随机向量。V·R可以看做是将V向R上进行投影操作。其是(d1,d2,(180-d1)180,(180-d2)/180)-sensitive的。
normal Euclidean distance
Euclidean distance是衡量D维空间中两个点之间的距离的一种距离度量方式。