在Spark上基于Minhash计算jaccard相似度

最新推荐文章于 2024-06-13 16:08:52 发布

a_step_further

最新推荐文章于 2024-06-13 16:08:52 发布

阅读量1.8k

点赞数 1

分类专栏： spark 复杂网络文章标签： spark minhash Jaccard

本文链接：https://blog.csdn.net/a_step_further/article/details/107643449

版权

本文介绍了在风控领域如何利用Spark的Minhash算法近似计算Jaccard相似度，以解决大规模关系网络中账号的关联分析问题。文章讨论了暴力计算和倒排索引方法的局限性，并详细阐述了Minhash的工作原理及其在Spark中的应用，提供了一段基于ODPS平台的实践代码作为参考。

摘要由CSDN通过智能技术生成

问题引入

在风控领域常会面临一种场景：随着安全策略的打击，部分已经显露的账号/用户会被稽核、处置，要么被动地被封停，要么被坏人干脆舍弃掉。坏人会重新注册新的账号进行活跃。而这些新老账号之间很可能没有直接的交易关系，甚至连登陆设备也不同，就较难发现其关联性。但有一点是较难隐藏的：上下游的关系链。因此，可以尝试通过关系网络结构上的相似性来量化两个账号之间的关联度，从而对于风险用户关联分析起到一个补充作用。

可用下图来辅助说明，x的交易流入方集合为{a,b,c,d}， y的交易流入方集合为{b,c,d}，一个很自然的想法就是用Jaccard相似度来计算两个集合之间的相似度，也即：

常用解法

暴力计算

比较容易想到的就是该表与自己做JOIN，求出交集。然后再分别计算一个节点入度数，用 x的节点入度数 + y的节点入度 - 交集节点数得到并集的大小，那么交集大小/并集大小就得到了结果。但是以蚂蚁的数据体量而言，动辄N亿的关系对，这个计算几乎是不可行的。

借鉴倒排索引

在使用表的JOIN操作时，默认是不知道哪两个节点有交集的，所以会进行暴力的两两配对计算。这里可以借鉴自然语言处理中的倒排索引方法，将每个流入节点node看作一个词，得到一个索引表, 该表中的账号就有共同的流入节点，它们两两之间的交集统计值就可以+1，遍历所有的流入节点，就汇总出了两两节点之间的交集数量。

Minhash

前面的方法都是实打实地计算，但有时候一种“足够好”的近似求解结果也是可以接受的，尤其是工程上有较大的效率提升时。Minhash就常用于近似求解Jaccard相似度。现在Spark中也有现成的包可以用，使用成本就比较可控了。

实践代码

Spark官方文档中有一段样例代码可以参考：https://spark.apache.org/docs/3.0.0/ml-features.html#minhash-for-jaccard-dist

最低0.47元/天解锁文章

a_step_further

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
在Spark上基于Minhash计算jaccard相似度

问题引入在风控领域常会面临一种场景：随着安全策略的打击，部分已经显露的账号/用户会被稽核、处置，要么被动地被封停，要么被坏人干脆舍弃掉。坏人会重新注册新的账号进行活跃。而这些新老账号之间很可能没有直接的交易关系，甚至连登陆设备也不同，就较难发现其关联性。但有一点是较难隐藏的：上下游的关系链。因此，可以尝试通过关系网络结构上的相似性来量化两个账号之间的关联度，从而对于风险用户关联分析起到一个补充作用。可用下图来辅助说明，x的交易流入方集合为{a,b,c,d}， y的交易流入方集合为{b,c,d}，一个
复制链接

扫一扫

专栏目录