群控,是黑产团伙中一种比较流行的作弊工具,可以批量操作多台手机。黑产团伙使用群控设备的一般流程是,自动化注册、登录、操作,从业务行为上伪装成正常的用户,不断重复操作使得获利最大化。
前面介绍的多种手段都可以用来防控群控,包括欺诈情报、设备指纹和决策引擎风控规则等。需要注意的是,这几类识别群控的技术手段都非常依赖专家经验,对已知的群控样本和通用的技术特征有比较好的防控效果,但是无法快速发现未知的风险和新型工具。黑产团伙作案手段变化较快,当专家经验驱动的防控规则开始上线使用时,业务往往已经遭受了一定的欺诈损失。所以采用机器学习方法自动识别新型欺诈攻击手段、挖掘欺诈用户背后的群控设备是一种新的探索思路。
运用机器学习挖掘群控网络的过程如下:
- 使用业务数据进行大数据建模。
- 模型输出群控设备网络和风险等级。
- 业务专家提供业务经验的支持,对模型识别结果进行确认或修正。
- 将模型结果应用到生产环境中。
数据准备
1、数据源
各业务系统的数据经常以不同形式存储,需要将多种来源数据统一成同一种格式。
2、业务字段
数据是机器学习任务的重要基础,需要从要解决的业务问题出发选择可能用到的数据字段。根据用户在不同场景下的行为,我们确定了算法需要使用的数据字段标准,然后通过各种方式采集业务系统产生的数据,并按照统一的格式进行存储、关联和整合处理。
挖掘黑产群控团伙。我们在实践中需要通过设备指纹或其他技术手段采集设备环境信息,包括移动设备的品牌、型号、系统、版本及网络环境信息(IP、网关)等。除此之外,算法也会使用业务数据和业务系统日志等,从不同维度更全面的覆盖设备行为数据。
3、数据标签
算法通常从不同角度出发,去学习数据自身的规律和特点。样本数据中是否有标签,标签样本的占比多少,决定了算法模型的选择。如果完全没有标签,则使用无监督模型;如果有少量标签,则使用半监督模型;如果有较多标签,则使用有监督模型。当采用监督模型时,算法根据已知的标签信息进行学习,不断优化目标函数,得到恰到好处的模型,最终在测试样本上进行预测。
在建立黑产群控团伙的算法识别模型过程中,我们通过业务人员获取了少量的疑似群控黑产的样本,所以可以选择半监督模型或无监督模型。
数据评估与清洗
经过数据归集整合等准备工作,我们拥有了一份完整的用户行为日志数据,在建模之前,需要先对这份数据进行质量评估工作。
1、总体概览
统计一个月中用户行为记录条数的总体走势,整体数据分布均匀。
2、数据质量
数据非空有效性是后续特征选择的重要参考依据。
3、数据预处理
在数据质量评估之后,需要对异常数据进行处理,主要包括某些字段的缺失值处理和异常值处理
1)缺失值处理
常见的缺失值处理方法又:
- 当缺失数据极少时,考虑直接删除缺失记录。
- 当类别型数据缺失时,考虑使用众数或其他类填充。
- 当连续值数据缺失时,考虑使用中位数、平均数或使用近邻、回归等插值方式填充。
- 当缺失数据比例较大时,考虑直接删除该变量字段。
2)异常值处理
异常值检测可以有以下3种方法:
- 统计量分析:如利用统计学的3西格玛法则,异常值被定义为与平均值的偏差超过3倍标准差的值。另外,还可以通过箱线图,根据分位数计算出正常样本的上下边界,在边界以外的数据被认为是异常值。
- 基于密度分析:利用聚类技术,那些离大簇较远的小簇,如果自身尺寸够小,则被认为是异常值。
- 寻求业务支持:确定正常样本值的范围。
异常值处理主要有以下两种方法:
- 当异常数量较少时,直接删除该记录。
- 使用替代值,如超过正常边界的值以边界值替代。
模型开发
1、聚类算法可行性
基于对群控技术的理解,我们在实践中选择了一种可扩展的事件相似聚类算法来发现使用群控的黑产团伙。黑产团伙在相同环境下使用了比较相似的设备,通常采用一台电脑控制多个设备的模式,所以在设备行为上存在相似性,这是一个非常适合聚类算法的欺诈场景。为了防止被风控规则发现和拦截,黑产团伙会通过正常业务行为、修改设备参数等手段进行伪装潜伏和自我保护。但是因为成本原因,黑产团伙使用的网络资源往往是有限的,所以会呈现IP、Wifi环境的聚集性。而通过人工或脚本修改移动设备参数才能实现改机,通常难以覆盖全特征维度,并且在大批量操作设备时又产生了新的行为相似性。
因此,使用聚类算法总能在特征维度上找到黑产团伙相似性,发现隐藏在这些相似行为的群控网络。
2、聚类算法流程
我们设计的聚类算法主要通过相似计算和图划分实现聚类分群。
1)相似计算
数据流入相似计算模块,首先两两比较设备行为之间的相似性。在本算法中支持自定义的相似性定义,可以配置在特定特征维度上使用特定的相似衡量尺度。然后滤除相似性较低的连边,得到有欺诈嫌疑的设备关系。
在计算相似性时,同一设备之间可以按照不同的纬度多次计算相似性。
2)图划分
在经过剪枝之后的图中,我们经过连通图算法可以得到紧密关联的设备网络。
3、结果展示
通过聚类后,我们得到了疑似的群控设备分组列表。通过进一步的分析这批设备的更大时间跨度上的行为数据,我们发现这些设备多次在相近的时间切片、相近的网络环境上出现了大量的一致性行为,确认是黑产团伙进行“养号”的行为使用的高风险群控设备。
从已确认黑产团伙使用的高风险群控设备上,可以进一步学习更多的欺诈特征,通过不断迭代后投入生产使用,在实际业务中取的了较好的应用效果。