风控数据来源及分析技巧

  本文是《风控总监训练营》第4、5课学习笔记。

  首先,从风险管理角度理解业务。以发薪日贷款和中大额贷款为例。

  • 发薪日贷款
      这类贷款的特点是小额、短期、快速,对审批时效性及客户体验要求较高。需要客户填写的资料少,大量依靠第三方数据。对反欺诈尤其是团伙欺诈识别有较高要求。客群整体质量较差,欺诈风险占比较高且多头负债严重。

  • 中大额贷款
      中大额现金贷产品是真正考验风控能力的产品。需要平台能够精准识别目标客群、准确分析借款人的还款能力。

数据来源及分类

  数据源可以分为外部三方数据源和内部数据源。外部三方数据源有身份核验类数据、特殊名单数据、行为特征数据。内部数据源有申请单类数据、设备类数据以及贷后类数据。

  • 身份验证类数据
      通常有个人身份认证、姓名身份证号验证、手机三要素验证、银行卡二要素三要素四要素验证等,主要目的是核实借款人的身份信息,确认是用户本人在申请贷款。

  • 特殊名单类数据
      大概有个人失信信息、不良诉讼信息、个人涉诉信息、不良信息核查、个人黑名单、欺诈名单等。

  • 行为特征类数据
      多头借贷数据、银联交易数据、个人交易特征以及个人信用分类的数据。

  • 内部数据源
      内部数据源第一是申请单类数据。比如用户个人基本信息、工作收入信息、教育信息、联系人信息等,;第二类是设备类数据,比如设备指纹、通讯录通话记录、短息、位置信息等;第三类是贷后的表现数据如个人贷款还款信息、交易检测信息和催收数据。

数据源评测

  常用的风控审批流程架构如下图:

  数据源的收集有两种方式。一种是补查数据,即准备一批有贷后表现的数据,通过批量调用数据源,返回结果。这种方法的优点是准备周期短,但是也可能所查数据源不支持回溯。比如信贷逾期情况,可能包含了当前用户的逾期,就会出现用Y去查Y的结果,影响测试效果;另一种方法是审批时实时收集,这种方式对数据需求程度较低,审批时只收集数据不做规则。可以最真实模拟线上情况,排除因时间造成的效果干扰,但是相应的数据源准备周期也会较长。
  数据源效果的评估指标常用的有覆盖率、命中率、IV值、KS值、AUC值等。KS和AUC更多的是针对分数类的数据源,如芝麻分等。
  下面是一个黑名单类数据源测试的实例。
  一共有A、B、C、D、E五类测试数据源,随机抽取8997条数据进行测试(4348条坏样本),坏样本的定义是mob3期时max_dpd>=85。通过分析命中率和逾期率来评估数据源的好坏。

  8997条样本中一共有2118条命中黑名单,总体命中率为23.54%,可以看到数据源A的命中比例以及独家命中率都显著较高。再看一下命中黑名单人数中的逾期情况。

  数据源A的逾期率较低,说明A虽然命中最多的黑名单,但真正的坏样本占黑名单的比例不高。黑名单的量大但是准确度不够高,如果使用数据源A的话会误杀大量的好客户,所以无法选择A,需要继续进行测试。

  从命中率来看,BCDE的命中率依次递减,所有数据源命中的黑名单占测试样本的9.11%。从覆盖率来看,D的名单被B完全覆盖,说明D的黑名单来源于B。

  从命中黑名单的逾期率来看,均高于测试样本的逾期率,说明黑名单有一定的效果。按黑名单的逾期率排的话是CBDE,所以推荐接入C和B两个数据源。
此外数据源测试可以参照的指标还有有效差异率、无效差异率、误拒率等,看下面这个例子。

  测试样本有1000条,其中有通过的和拒绝的样本。通过的样本中有好样本和坏样本,拒绝的样本中有黑名单拒绝和其它原因拒绝。查得率、覆盖率、有效差异率(绿色)应该越高越好,误拒率和无效差异率(红色)则越低越好。

  1. 有效差异率可以侧面反映风控策略的完整性。
  2. 有效差异率和无效差异率都较高,说明黑名单是广撒网式,不够精确。

  如果是欺诈名单验证,可以将用户分为通过和拒绝的样本,通过的样本中有好客户和贷后定性欺诈的客户,拒绝的样本中有欺诈决绝和其它拒绝。

【作者】:Labryant
【原创公众号】:风控猎人
【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。
【转载说明】:转载请说明出处,谢谢合作!~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值