开源项目专题系列
(五)
1.开源项目名称:LPA-Detector
2.github地址:
https://github.com/wuba/LPA-Detector
3.简介:本文主要介绍基于GraphX框架对LPA算法的改造,并提出了一种新的标签传播算法,其实践结果表明:其改进的算法在运行效率和算法效果方面均有显著的提升。
LPA-Detector于2020年3月份开源,具备如下特点:
- 基于GraphX框架的LPA算法分布式改造,满足大规模图数据的并行计算需求;
- 产出实际生产应用中调优图计算的迭代参数,可大幅减少内存消耗和计算时间;
- 对图传播算法进行改进,引入基于节点置信权重和关系影响力的评价选优方法,提高传播的稳定性和准确性;
背景
关联网络是将现实中关联实体信息通过数据抽取、转换并以图的形式存储和计算的一种垂直类知识图谱。图的节点表示关联网络中的实体,边表示两个实体之间的关系。
风控场景下,通常高风险人群具有高聚集性特点,那么利用关联网络数据并通过特定的图算法就可以发现这些潜在的风险团伙。LPA(Label Propagation Algorithm)正是一种基于标签传播的高效的“社团发现”算法,它是由Usha等人在2007年提出,该算法具有线性复杂度,且不需要任何目标函数和网络中的先验信息,是一种适合在大规模数据集上进行风险传导的图算法。