本文是《风控总监训练营》第4、5课学习笔记。
首先,从风险管理角度理解业务。以发薪日贷款和中大额贷款为例。
-
发薪日贷款
这类贷款的特点是小额、短期、快速,对审批时效性及客户体验要求较高。需要客户填写的资料少,大量依靠第三方数据。对反欺诈尤其是团伙欺诈识别有较高要求。客群整体质量较差,欺诈风险占比较高且多头负债严重。 -
中大额贷款
中大额现金贷产品是真正考验风控能力的产品。需要平台能够精准识别目标客群、准确分析借款人的还款能力。
数据来源及分类
数据源可以分为外部三方数据源和内部数据源。外部三方数据源有身份核验类数据、特殊名单数据、行为特征数据。内部数据源有申请单类数据、设备类数据以及贷后类数据。
-
身份验证类数据
通常有个人身份认证、姓名身份证号验证、手机三要素验证、银行卡二要素三要素四要素验证等,主要目的是核实借款人的身份信息,确认是用户本人在申请贷款。
-
特殊名单类数据
大概有个人失信信息、不良诉讼信息、个人涉诉信息、不良信息核查、个人黑名单、欺诈名单等。
-
行为特征类数据
多头借贷数据、银联交易数据、个人交易特征以及个人信用分类的数据。
-
内部数据源
内部数据源第一是申请单类数据。比如用户个人基本信息、工作收入信息、教育信息、联系人信息等,;第二类是设备类数据,比如设备指纹、通讯录通话记录、短息、位置信息等;第三类是贷后的表现数据如个人贷款还款信息、交易检测信息和催收数据。
数据源评测
常用的风控审批流程架构如下图:
数据源的收集有两种方式。一种是补查数据,即准备一批有贷后表现的数据,通过批量调用数据源,返回结果。这种方法的优点是准备周期短,但是也可能所查数据源不支持回溯。比如信贷逾期情况,可能包含了当前用户的逾期,就会出现用Y去查Y的结果,影响测试效果;另一种方法是审批时实时收集,这种方式对数据需求程度较低,审批时只收集数据不做规则。可以最真实模拟线上情况,排除因时间造成的效果干扰,但是相应的数据源准备周期也会较长。
数据源效果的评估指标常用的有覆盖率、命中率、IV值、KS值、AUC值等。KS和AUC更多的是针对分数类的数据源,如芝麻分等。
下面是一个黑名单类数据源测试的实例。
一共有A、B、C、D、E五类测试数据源,随机抽取8997条数据进行测试(4348条坏样本),坏样本的定义是mob3期时max_dpd>=85。通过分析命中率和逾期率来评估数据源的好坏。
8997条样本中一共有2118条命中黑名单,总体命中率为23.54%,可以看到数据源A的命中比例以及独家命中率都显著较高。再看一下命中黑名单人数中的逾期情况。
数据源A的逾期率较低,说明A虽然命中最多的黑名单,但真正的坏样本占黑名单的比例不高。黑名单的量大但是准确度不够高,如果使用数据源A的话会误杀大量的好客户,所以无法选择A,需要继续进行测试。
从命中率来看,BCDE的命中率依次递减,所有数据源命中的黑名单占测试样本的9.11%。从覆盖率来看,D的名单被B完全覆盖,说明D的黑名单来源于B。
从命中黑名单的逾期率来看,均高于测试样本的逾期率,说明黑名单有一定的效果。按黑名单的逾期率排的话是CBDE,所以推荐接入C和B两个数据源。
此外数据源测试可以参照的指标还有有效差异率、无效差异率、误拒率等,看下面这个例子。
测试样本有1000条,其中有通过的和拒绝的样本。通过的样本中有好样本和坏样本,拒绝的样本中有黑名单拒绝和其它原因拒绝。查得率、覆盖率、有效差异率(绿色)应该越高越好,误拒率和无效差异率(红色)则越低越好。
- 有效差异率可以侧面反映风控策略的完整性。
- 有效差异率和无效差异率都较高,说明黑名单是广撒网式,不够精确。
如果是欺诈名单验证,可以将用户分为通过和拒绝的样本,通过的样本中有好客户和贷后定性欺诈的客户,拒绝的样本中有欺诈决绝和其它拒绝。
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。
【转载说明】:转载请说明出处,谢谢合作!~