前文随便扯淡,挖了个坑一直没有填,本文聊聊黑产团伙识别
首先我认为团伙挖掘真正核心在于将业务转化为graph的抽象能力,而不是某个算法问题。很多水文开头一句团伙挖掘,全篇介绍经典社区发现算法非常容易误导人!
其次在无监督中可解释性非常重要,而图的视角往往具备这个特性。
1.攻防对抗
黑产团伙一般受资源和任务约束的影响,有聚集性、短期高频等特征。一般都会有下述风控规则:
- “7天内在某事件(注册、营销等)设备关联超过xx个账户”。
- “1天内某IP关联超过xx个账户”。
虽然规则简单,但由于实时性和贴近业务的特点,确实是可以拦截不少黑产。
不过会造成一定误杀,特别是IP类的规则,比如最好开流量抢票,而不是公司、学校的WIFI。
同时因为风控是攻防对抗的过程,黑产也会升级,比如通过伪造设备、LBS、频繁更换IP等手段尽可能伪装成一个真人,隐蔽聚集性等显性特征,绕过风控规则。
相应风控技术也在进化,如使用设备指纹、IP画像、验证码对抗等,因为不是本文重点不过多介绍,若感兴趣人多后面可以专门开一文介绍。
2. 基于关联关系识别团伙
就上节描述的场景,其实可以定义设备-账户的Graph如下:
节点:账户、设备
边:近xx天账户与设备出现在同一事件中,则它们之间有一条边。
识别方法:
- 无监督方法:通过连通子图算法识别出一个个连通的社区,如果社区规模较大,