【40分钟速成智能风控7】智能反欺诈模型

水木流年追梦

于 2024-04-11 00:56:41 发布

阅读量965

点赞数 19

分类专栏：风控算法风控之路文章标签： python 开发语言机器学习算法人工智能自动化深度学习

本文链接：https://blog.csdn.net/qq_32146369/article/details/136418728

版权

风控算法同时被 2 个专栏收录

112 篇文章

订阅专栏

风控之路

105 篇文章

订阅专栏

本文探讨了在风险管理中如何通过冠军挑战者技术进行A/B测试，验证风控策略的有效性，同时强调了版本和权限管理的重要性。文章详细介绍了无监督学习，如聚类、孤立森林和自编码器在反欺诈场景中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

冠军挑战者

有了规则和模型，如何去验证风控策略的有效性呢？风控人员可以通过回溯规则和模型的结果，在历史数据上离线计算该策略下的逾期率和核准率。但是离线回溯的方式通常有三个问题。

第一，历史上被拒绝的客户的实际贷后表现是无法观察的，这就造成了测算的逾期率存在一定偏差。

第二，机构的风控策略中通常会涉及外部数据源，这些外部数据源可能存在无法回溯的问题，导致无法在历史数据上完全复现当前的风控策略。

第三，由于大环境或者其他策略的影响，历史客群和当前客群存在一定的差异，历史数据上回溯的效果并不能完全代表当前线上的实际情况。因此，支持线上测试是决策引擎中比较重要的功能，而线上测试就离不开“冠军挑战者”技术。

“冠军挑战者”也被称为A/B测试，目的是比较多个实验组策略和当前对照组策略的线上效果，从而找出其中最优的策略。风控人员首先通过离线回溯的方式制定几套实验策略，然后通过决策引擎中的“冠军挑战者”模块部署相应的规则和模型，通过观察一段时间内各个实验组的逾期率和核准率，来决定是否替换当前线上的对照组。“冠军挑战者”背后有如下儿个关键的技术点需要保障。

1）样本随机性。实验组和对照组中的样本划分需要保证随机性，尽可能保证实验组和对照组都落在同一个时间段和产品线内，排除客群变化和营销活动对于策略效果的影响。
2）样本互斥性。实验组和对照组中的样本必须保证严格互斥，也就是说不存在样本既在实验组又在对照组中的情况。对于两个完整的决策树规则集，这个要求通常比较好实现；但是如果想比较决策树中节点之间的效果，就要做到每个叶子节点向下划分的样本集互斥，这样才能保证每个实验组都是独立的。
3）样本显著性。实验组和对照组中的样本数量不宜过少，如果样本太少的话会造成策略效果不显著，无法完全相信策略的线上效果。为了获得样本的显著性，风控人员在制定实验的时候需要充分考虑每天的流量，确定每个实验组的样本量和实验运行时间，保证实验结果的有效性。
4）实验完整性。如果只是在策略集中的某几个节点新增实验组的话，还要保证样本流入节点前和流出节点后策略的完整性，这样才能观察到实验前后整个策略集的线上效果。

版本和权限管理

除去前面介绍的几个涉及核心功能的模块外，版本和权限的管理对于决策引擎来说也很重要，这两个功能的目的是最大程度地降低人工操作带来的风险。在人工配置规则和模型的过程中，难免会存在一些操作上的失误，有了版本管理功能，就可以快速定位配置中的问题，并且在必要的时候回滚到上个版本的策略，减少线上的损失。权限管理功能则保证了线上策略的安全性，各个策略模块由专人管控，最核心的策略只有风控团队内最资深的专家才可以浏览和修改，避免了核心策略泄露造成的欺诈隐患。

智能反欺诈模型

传统的反欺诈技术主要依赖于案调人员的事后调查和业务专家总结的黑名单库及规则集，对于欺诈案件的发现相对滞后，且召回率低，错过了很多潜在的欺诈风险。智能反欺诈模型作为大数据时代的产物，利用海量数据和机器学习算法，能够主动发现个人和团伙的欺诈风险，帮助业务人员预警和防范。目前在业界中落地较多且取得了一定效果的主要是无监督学习和图计算这两类算法。

无监督学习

无监督学习（Unsupervised Learning）是机器学习的一个分支，主要解决训练样本在标签缺乏情况下的模式识别问题，这类算法主动学习的特性能够很好地满足互联网金融机构对于反欺诈场景的业务需求。聚类（Clustering）是无监督学习中应用最广的一种算法，它的学习目标是将样本集划分为若于个不相交的簇，每一个簇都具备特定的规律。在聚类的时候，我们希望簇内相似度高，并且簇间相似度低，这样才能使聚类后的结果区分度最优。聚类有多种方式，可以基于距离、概率、密度等给出不同的计算结果。在反欺诈场景中，建模人员既可以观察聚类结果，直接找出异常簇作为疑似欺诈客群，又可以利用簇内相似性的原理，将与欺诈客群处于同-个簇的其他样本打标，扩充标签数据后训练分类模型。

孤立森林（Isolation Forest）是另一种在反欺诈场景中被尝试过的无监督算法，于2008年被周志华教授团队首先提出。与聚类算法通过距离、密度等量化指标识别异常样本不同，孤立森林基于二叉搜索树原理，利用多棵树的随机划分，找出最容易被孤立出来的样本作为异常样本。异常样本到根节点的平均路径长度，则可以看作是该样本的异常程度，平均路径长度越短，异常程度越高。由于原理不同，孤立森林可以与聚类相融合，从不同角度量化样本的异常程度，从而提高召回样本的准确性。

在深度学习中也有一种无监督学习算法，自编码器（Autoencoder)。它通过神经网络结构将原始样本从高维空间压缩到低维空间，从而最大化保留样本的信息量。自编码器分为两部分：第一部分是编码器（Encoder），它的作用是将样本集通过多层网络映射到一个低维空间；第二部分是解码器（Decoder），在训练时通过反向传播不断优化网络参数，使得模型的损失函数最小。编码器留下信息量最大的维度，同时解码器将低维空间还原到样本集原始的高维空间，其中与原始分布差异较大的样本，可以看作异常样本。

自编码器对于训练样本的数量和维度有一定要求，在样本量足够大的情况下可以尝试这种深度学习方法，找出疑似异常客户。