反欺诈体系搭建-CSDN博客

本文链接：https://blog.csdn.net/m0_53157078/article/details/114689934

前言

1.通过买票的例子引入话题，介绍黑产的概念和特点。

2.介绍反欺诈的由来以及如何搭建反欺诈体系（从人员配备、产品类型、技术手段、效果要求、欺诈情报这五个方面详细展开来谈）。

3. 附录一: 文中推荐的书籍。

4.本文面向对象: 互联网风控或者业务安全从业者。

5.文章4200字左右，阅读时间5分钟。

你有没有遇到这种情况，你的偶像要来家乡开演唱会了，你非常兴奋，决定买张门票到现场为你的偶像打Call。于是，你登录某网站进行门票预订，结果发现，预订的人数非常多，要到发售那一天才知道是否能买到。等发售时间到的时候，你发现票在几秒之内就被抢光了，内心一万个草泥马飘过。后来，你听说，有人高价转让门票。突然间心情又好了，虽然付出了比原来高出50%的价格，但最终还是买到了票，见到了偶像。

以前的我未曾仔细想过为什么票这么难抢，认为只是门票畅销而已。直到有一次遇到类似的情况才了解其中的门门道道。当时，朋友给我介绍了一个票贩子，说可以抢得到票，但是要加钱。加点钱不是什么大问题，我倒是好奇他们是怎么做的。通过聊天得知，原来他们有专业的设备和高速的网络，用来抢各类畅销的票，一般人是抢不过他们的，难道我们抢不到呢!

看到这里，相信你已经明白了他们这么做的目的,就是为了钱。你心里又会有疑问，那提供服务的平台允许他们这样做吗，说允许那是假的。只是这些从业者技术先进，手段高明，要防止他们并非易事。业界将这种抢票的行为称为黄牛秒杀，将从业者被称为黄牛党，也即是黑产。

看看百度百科对黑产的定义：指以互联网为媒介，以网络技术为主要手段，为计算机信息系统安全和网络空间管理秩序，甚至国家安全、社会政治稳定带来潜在威胁（重大安全隐患）的非法行为。

俗话说，知己知彼，才能百战百胜。我结合过往的经验，梳理了黑产的特点，如图1、图2所示，让读者更深入地解他们。接下来，一起聊聊平台如何通过搭建反欺诈体系来对抗黑产。

图 1

图 2

反欺诈解决方案

反欺诈其实已经出现了很多年，只是一直存在于大型互联网平台,用于内部业务的防护。这几年,随着互联网的蓬勃发展，各种新平台如雨后春笋，不断冒出来，特别是面向C端的公司，更是百花齐放。由于每个行业竞争者众多，为了尽快占领市场，大多数平台采取简单粗暴的方式-补贴。在利益的驱使下，黑产肆虐猖狂，平台方在推广自身业务的同时，面临着越来越多的风险,如图3所示,而反欺诈也是在这时进入大众的视野。

目前，平台方搭建反欺诈体系主要有两种方式，一种是借鉴大型互联网平台的经验；另外一种是引入第三方的反欺诈厂商。无论采取那种方式，都是为了提高黑产的作案成本，让他们将目标转移到更容易获利的地方。

图 3

反欺诈体系的搭建，主要包括人员配备，产品类型、技术手段、效果要求、欺诈情报五个方面，我们逐一展开来谈。

一、人员配备，传统的线下反欺诈往往是单兵作战，但建设互联网反欺诈体系需要一个完整的团队，各个岗位分工配合共同完成。一个完备的反欺诈体系需要以下几类岗位人员,如图4所示。

图 4

1.策略人员：反欺诈体系需要有大量熟悉互联网欺诈手段和防范方法的策略人员。策略人员应当实时关注互联网欺诈的动态，及时发现新出现的互联网欺诈手段和方法，并有效的调度和利用既有的资源制定反欺诈的策略，进行防范。

2.运营人员：由于互联网欺诈行为的多样性和灵活性，欺诈手段会不断地出现变化和创新。反欺诈运营人员应当建立各类运营指标体系，通过监控指标的变化，不间断的分析指标变化原因，及时发现穿透反欺诈策略体系的欺诈行为并予以应急响应。此外，运营人员还应该与业务部门、产品部门、营销部门保持高度密切的沟通，做好欺诈风险和用户体验的平衡。

3.调查人员: 反欺诈调查人员应当人工对各种已经发生或正在发生的互联网业务请求进行人工的调查、核实。对于在人工调查中发现的漏报欺诈行为，应当及时止损、追损，如取消订单（互联网电商）、拦截发货（互联网电商）、贷后提前介入（互联网金融）等。

4.数据挖掘人员: 主要负责将系统采集的各种形式的数据进行解析和挖掘，输出各种特征，使其能够被应用于反欺诈建模和策略工作。该岗位的工作可与数据分析、用户画像等部门共享。

5.数据建模人员: 负责利用系统采集到的客户数据和数据挖掘输出的特征，建立欺诈模型，对客户的欺诈概率进行预测。该岗位的工作可与企业内部其他数据建模工作共享。

6.研发人员: 负责各类反欺诈系统的开发和维护、反欺诈策略和模型的实现。

二、产品类型，优秀的产品将会提高反欺诈体系的防御能力，如图5所示。

图 5

1.设备指纹是目前在反欺诈领域使用最普遍的产品，它的作用从最早的设备唯一标示，变为了客户端数据采集器,其部署方式比较简单，就是在App、网页端、H5页面部署相应的SDK或者代码即可。设备指纹服务目前市场上有大量的服务提供商（如某盾、某美、某象），评价一个设备指纹产品的优劣主要包括唯一性、稳定性、覆盖率、安全性四个方面。

2.智能验证码是一种提供智能人机识别验证的产品。它通过设备指纹采集和行为轨迹处理技术，与云上大数据分析和深度学习引擎相结合，实现高可用、高并发、低延迟的机器流量精准识别。常用于防止恶意密码破解、刷票、论坛灌水等场景，有效拦截黑客使用特定程序强行进行暴力破解。

3.生物探针通过采集用户使用智能终端设备（如手机、电脑等）时的传感器数据和屏幕轨迹数据，然后通过特征工程、机器学习、为每一位用户建立多维度的生物行为特征模型，生成用户专属画像进行人机识别、本人识别。

4.信誉库即传统的黑、白名单库，通过内部积累、外部获取各种人员、手机号、设备、IP等黑、白名单对欺诈行为进行判断，是一种实施简单、成本较低的反欺诈手段。与此同时，信誉库也存在着准确度低、覆盖面窄的缺陷，仅可作为互联网反欺诈的第一道过滤网使用。根据笔者接触过的客户反馈，目前信誉库比较好的提供商基本都是互联网知名巨头(如X讯，X里)。

5.第三方数据产品指通过公开途径或第三方数据服务商处获取的各类数据，包括但不限于用户的运营商数据、电商消费数据、银行数据、司法数据等各类数据。由于监管要求，此类数据往往是已经进行脱敏处理的标签数据。考虑到这类数据会产生一定的数据成本，同时真实性和准确性也参差不齐，所以在使用这类数据时，应当十分谨慎。

6.生物识别如声音识别、人脸识别等，是指对用户特定生物特征进行检测和识别一种技术手段，通过比对用户的生物特征信息，判断用户身份，主要用于用户身份的核实等场景，防止出现用户帐户被盗用的情况。

7.知识图谱是利用图数据库，从特定维度对不同用户和不同操作行为之间进行关联和计算，从而发现不同用户和不同操作之间的关联关系，可以用于团伙特征检测等场景。

8.决策引擎是互联网反欺诈体系的大脑和核心。一个功能强大的决策引擎，可以将设备指纹、信誉库、知识图谱等各类反欺诈产品有效的整合，并为反欺诈人员提供一个操作高效、功能丰富的人机交互界面，大幅降低反欺诈运营成本和响应速度，如X盾的决策引擎系统。对于决策引擎好坏的判断，应当从引擎处理能力、响应速度、UI界面等多个维度进行综合判断。

9.模型平台是一款自动化、智能化快速建模的AI平台,可赋能数据建模人员快速自主开发反欺诈模型，挖掘数据的业务价值，并将模型结果赋予决策引擎,提高反欺诈的效果。（关于AI建模的知识可以参考我的另外一篇文章https://blog.csdn.net/m0_53157078/article/details/113481771）

三、技术手段，不同的技术会让产品发挥不一样的价值，如图6所示。

图6

1.数据采集技术主要是应用于从客户端或网络获取客户相关数据的技术方法。值得强调的是，数据采集技术的使用，应当严格遵循法律法规和监管要求，在获取用户授权的情况下对数据进行采集。该技术用得最多的场景就是设备指纹和网络爬虫。

2.数据分析技术也是构建反欺诈体系的一个核心能力。海量数据和特征的处理也对数据分析技术提出了更高的要求。常见的数据分析技术包括实时分析（如Storm）和离线分析（如Hadoop）两类，具体介绍可以参见大数据相关技术。

3.特征工程是指可以从原始数据中进行数据挖掘的各类技术。常见的特征工程技术如生物识别、文本语义分析等。生物识别前面已经谈过，文本语义分析主要用于对文本类数据的解析和挖掘，从用户评论等文本内容中提取用户特征，常用在内容安全场景。

4.机器学习：机器学习反欺诈是通过机器学习方法（如监督学习、无监督学习），将用户各个维度的数据和特征，与欺诈建立起关联关系，并给出欺诈的概率。

1）有监督机器学习反欺诈是目前机器学习反欺诈中较为成熟的一种方法。其基本思路是通过对历史上出现的欺诈行为进行标记，利用逻辑回归等机器学习算法，在海量的用户行为特征、标签中进行分类，发现欺诈行为所共有的用户行为特征，并通过分值、概率等方式予以输出。由于互联网欺诈行为的多样性，很难百分百的将欺诈行为与正常行为完全进行区分，因此有监督机器学习反欺诈等最大难点在于如何准确获取大量欺诈行为的标记

2）无监督机器学习反欺诈是近来行业内出现的一种新兴思路，也成为一些公司的卖点，但迄今为止尚未出现较为成熟和经过实践验证的解决方案。相对来说，无监督机器学习的反欺诈方法不需要预先标记欺诈行为，而是通过对所有用户和所有操作行为各纬度数据和标签的聚类，找出与大多数用户和行为差异较大的用户和操作请求，并予以拦截。

四、效果要求，由于互联网行业的特殊性，对反欺诈的识别效果提出了较高的要求，要求具备4个特性，如图7所示。

图7

1.实时性指的是反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定，并给出判断，通常结果的反馈时间都是以毫秒来计算。对于一些关键场景，如注册、登陆、支付等，必须能够在用户无感知到情况下对欺诈行为进行检测和认定。

2.准确性指的是在实时反馈判断结果的同时，必须保证一定准确率，通常准确率要达到95%以上。如果出现误判，除了会影响用户的体验之外，还可能对客户的业务造成损失。

3.稳定性指的是要确保系统的稳定。我记得有一次，跟一家在线旅游服务的客户聊到，他们家的App部署某家的设备指纹产品，用来识别境外用户是否有盗卡支付的行为，结果菲律宾的用户无法登录App，没法购买旅游产品，等到用户投诉后才发现问题。最终发现是设备指纹SDK导致的，客户直接停止使用产品。通过这个例子，可以看出稳定性有多重要。

4.数据化是通过可视化的实时报表展示产品的效果，在跟客户沟通的过程中，经常提到一点就是，你们的产品很好，但是我要跟上头汇报，必须用数据量化你们产品的价值。所以，数据化能让客户能够非常清晰地看到投入产出比，比如识别了多少欺诈风险，为客户节省了多少损失等。