MapReduce计算最小哈希签名

最新推荐文章于 2022-10-12 12:30:07 发布

BatFor、布衣

最新推荐文章于 2022-10-12 12:30:07 发布

阅读量4.7k

点赞数 4

分类专栏： MapReduce编程文章标签： MapReduce编程矩阵乘法变种

本文链接：https://blog.csdn.net/qq_35268841/article/details/89159404

版权

本文介绍了如何使用MapReduce解决大规模集合相似度比较问题，通过计算最小哈希签名来高效估算Jaccard相似度。文章详细阐述了Jaccard相似度、minHash原理，并展示了如何通过矩阵操作和随机哈希函数模拟行打乱效果，最终计算集合间的相似度。

摘要由CSDN通过智能技术生成

摘要: 在数据挖掘中，一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素，统计这两个集合中相同元素的个数，来表示集合的相似度；这一步也可以看成特征向量间相似度的计算（欧氏距离，余弦相似度）。当这两个集合里的元素数量异常大（特征空间维数很大），同时又有很多个集合需要判断两两间的相似度时，传统方法会变得十分耗时，最小哈希（minHash）可以用来解决该问题。

前言

在数据挖掘中，一个最基本的问题就是比较两个集合的相似度。通常通过遍历这两个集合中的所有元素，统计这两个集合中相同元素的个数，来表示集合的相似度；这一步也可以看成特征向量间相似度的计算（欧氏距离，余弦相似度）。当这两个集合里的元素数量异常大（特征空间维数很大），同时又有很多个集合需要判断两两间的相似度时，传统方法会变得十分耗时，最小哈希（minHash）可以用来解决该问题。

Jaccard相似度

在本例中，我们仅探讨集合的相似度，先来看Jaccard相似度。假设有两个集合A，B，则

Jaccard(A, B)= |A ∩ B| / |A ∪ B|，我们举一个例子：

在上述例子中，sim(A,B)=2/7。

minHash最小哈希

假设现在有4个集合，分别为S1，S2，S3，S4；其中，S1={a,d}, S2={c}, S3={b,d,e}, S4={a,c,d}，所以全集U={a,b,c,d,e}。我们可以构造如下0-1矩阵：

为了得到各集合的最小哈希值，首先对矩阵进行随机行打乱，则某集合（某一列）的最小哈希值就等于打乱后的这一列第一个值为1的行所在的行号。举一个例子：

定义一个最小哈希函数h，用于模拟对矩阵进行随机行打乱，打乱后的0-1矩阵为

如图所示，h(S1)=2, h(S2)=4, h(S3)=0, h(S4)=2。

在经过随机行打乱后，两个集合的最小哈希值相等的概率等于这两个集合的Jaccard相似度，证明如下：

       现仅考虑集合S1和S2，那么这两列所在的行有下面3种类型：
       1、S1和S2的值都为1，记为X
       2、只有一个值为1，另一个值为0，记为Y
       3、S1和S2的值都为0，记为Z

S1和S2交集的元素个数为x，并集的元素个数为x+y，所以sim(S1,S2) = Jaccard(S1,S2) = x/(x+y)。接下来计算h(S1)=h(S2)的概率，经过随机行打乱后，从上往下扫描，在碰到Y行之前碰到X行的概率为x/(x+y)，即h(S1)=h(S2)的概率为x/(x+y)。