一、客户引流项目风险评估
前言:在流量为王的年代,公司为了业务快速拓展,市场会怎么做,风控该怎么做,后续又该如何监控和调优?
1.线下项目评估
线下项目类型:大额现金贷,场景分期等
2.线上项目评估
线上项目类型:小额现金贷、线上消费贷
特点:时间段、放款快、但是额度一般较低;无需提供相关附件,申请方式简单便捷,随时随地,无需面签
线上项目风险管理办法(政策指引、管控办法、监控报表)
1)政策推广指引:根据产品定位设置前端营销推广指引,包括渠道准入标准、客户进件条件、产品额度等
2)合作方准入以及前期沟通:对前端上报渠道进行准入评估、合作模型确定(API还是H5模式)
3)系统对接及联调测试:前置风险条件设置、必要回传信息验证、普通变量回归测试、白名单测试
4)上线监控及分析:初期前端控量,同时对进件量、批核率、拒绝原因分布、基本属性分析、了解渠道客户特征
5)逾期风险监控及策略调优:根据逾期情况,不断实施策略调优管控,并进行日常报表监控
线上项目举例:API合作引流项目、H5引流合作项目
线上项目风险评估:
线上项目风险监控报表:渠道进件/提现报表、(首逾)风险监控报表、规则监控报表、单变量监控报表
线上项目评估(总结):线下注重渠道管理,线上关注中介欺诈
二、反欺诈外部征信数据测试
外部数据的必要性:
近年来,伴随着互联网金融行业的爆发性增长及多元信贷业务的开展,互联网金融行业内用户逾期率和共债率不断攀升。数据缺失、风控盲点、信用隐患成为企业成长中不能承受之痛。
破除数据孤岛,打造数据生态闭环
传统征信信息+第三方数据,数据体量和维度更加广泛,通过多维度的数据应用,不仅能评估用户个人风险承担能力,还包含了与消费者还款能力意愿相关的一些描述性风险特征,全方位了解客户各方面行为。
产品类型:
1.特殊名单类型——决策类
黑名单:多头,逾期、被执行人、老赖、罪犯、一度二度关联等;
白名单:社保公积金、单位信息、地址信息、收入信息等
2.反欺诈评分类型——排序类
反欺诈模型评分
基本流程:
产品特征了解→数据提取→效果评估
测试方向考量:
1)查的率、命中率、覆盖率;
2)对客户评估的单调性、差异性、准确性;
3)对现有政策架构上的风险增益
样本提取原则:
1)数据量:
至少一个周期的量;
包含指定测试范围,一般0.5w-5w
2)数据时间
不宜太久远,尽量保证政策跟现有一致;
数据应有充足的表现期
3)数据维度
适当比例的好坏客户比例;
加入真实定性的客户数据去验证;
其他变量维度(如手机系统、渠道等)
**欺诈和信用违约:**结果都是逾期不还款
1)欺诈:没有还款意愿
2)信用违约:没有还款能力
如何定义欺诈客户?
1)贷前规则定性欺诈;
2)贷后案调定性欺诈;
3)首逾;
4)逾期超过一定时间。
总结:是否真实本人,是否真实资料,是否真实场景,是否真实意愿。
效果评估——特殊名单决策类评估指标
注:特殊名单类测试,应更关注准确率其次查的率,因此需给到坏客户浓度更高的数据去测试
黑名单库:内部黑名单库:
库表设计
来源:外部、催收、调查等
三、提现策略流程搭建——以小额现金贷为例
基本流程:
现金贷一般流程:
注册→申请→提现→复借
申请:完成基本资料的审批和授信
提现:因授信已经完成,主要设计欺诈识别
信用卡流程:申请→激活→交易
提现流程基本原则:
先基本规则,后核心规则
先内部规则,后外部规则
先系统规则,后人工规则
提现基本流程搭建:
内部基本规则:客群准入、黑名单、历史逾期、历史拒绝、异常行为、历史匹配、历史行为校验、逻辑校验、环境信息等(有些规则如多人共用对于新老客户是不同的——内部规则2)
外部信息规则:各类外部信息规则,如外部多头、外部高风险名单、外部分、运营商不一致、在网时长、外部信息联合拒绝等
综合校验:权重分规则、提示规则等
进电核规则:本人身份、单位真实性等不确定信息进行人工核实
贷中规则:贷中行为评分、历史信息变更、有无还款行为等
规则一般包括:拒绝规则、提示规则、进电核规则、跟踪规则等
人工电核审批:
功能:1)审核客户资料信息的真实性
2)确认客户是否可联
3)侧面了解客户负债情况和借款意图
4)及时发现系统bug
进人工审批策略制定:
什么样的客户进人工——客户信息不确定,存在可疑点,风险无法排除
1)客户本人或者资料信息虚假风险无法排除
2)异常行为风险无法排除,比如频繁修改密码
3)客户历史行为变化,比如地理位置或者手机设备变化
4)整体风险较高的客群,如欺诈评分评估风险高
5)额度特高的客户
提现监控:
提现批核监控:当日申请提现占比差异、提现时间分布差异、转化率
拒绝原因监控:规则命中占比变化、命中人工风险情况
变量监控:校验变量如四要素不一致占比情况、变量缺失值占比变化、同设备等集中度变量占比变化等
系统异常监控:频繁登陆失败异常监控、外部数据调用异常监控
4、通讯录反欺诈应用
欺诈注重识别客户的行为特征
行为特征衍生变量,变量构成策略和模型
信息预处理:
(1)通讯录是否伪造:是否安装改号软件、定期重新爬取通讯录信息并对比、通讯录称谓是否异常(称呼太多、全是小张、小王等)
(2)取高频和通话时长,以及非工作时间的电话(联系人多且通话时间厂的更真实)
(3)去掉软件添加的通讯录号码
(4)去掉特殊字符:空格等
(5)开头数字及位数判断、手机号及固话判断、去除+86等
(6)联系人号码去重
分析思路
信息关联分析:
多人共用:通讯录相同、通话记录相同,在相同设备不同申请的可能性高;…
特征挖掘:
直接使用基本通讯录数据是无法深度解析客户通讯录行为的,需要将粗粒度的通讯录数据加工为更细维度的模型解释变量,从更深入的角度对客户通讯录行为进行描述。
通讯录可拆成两个元素:一时存储的昵称;二是存储的号码。
同理,通话记录可拆成四个元素。
多变量因果分析:
通过通讯录基本信息(通话详单),还可以加工出以下解释变量
结合客户基本属性信息、通讯录详情信息根据变量的IV值,构建逻辑回归模型或决策树——策略
以上数据作为逻辑回归(LR)的输入,最合适不过,效果很好
风控建模需要处理很多list,对各种list进行合适的处理并衍生出有效特征,对模型效果大有裨益,对KS等指标的贡献也会比较显著。
基于通讯录通话记录的社交关联分析
群组发现:
取亲密度较高的联系人,每个人看做一个结点,以联系人关系看做连接两点之间的线,把所有借款人链接到一起,若形成了比较集中的复杂网络,则团伙的可能性更高;可应用于案件分析可排查。
社交网络是一个复杂的人际关系网络;
物以类聚,人以群分;
采集社交网络人际关系数据,进行聚类分析,发现群组。
关联分析——构造亲密度变量
亲密关联度:利用通讯录数据,可发掘出客户与谁联系最多,把联系最多的人定义为通讯录亲密度最大的人,通讯亲密度(T)的定义为:
T=(a主叫通话时间+b被叫通话时间)*通话数量
可令a=0.55,b=0.45,此处赋予主叫通话时间较大权重,体现出客户的主观联系意愿。
变量衍生——通过亲密度构造关系网络分数
按前面公式,计算出客户与其各联系人亲密度后按亲密度由高至低排序后赋值,亲密度最高的联系人其亲密度为C1;亲密度第二高的为C2,以此类推全部赋值,用来计算关系网络分数(S),关系网络分数计算方式可定义为:
Vi为客户的联系人违约情况(历史违约天数、历史黑名单等)
通过关系网络分数,可以反映出该客户通讯录亲密度最高的社交圈内人群的综合违约情况。
最终,通过前面的基本通讯数据,形成三大类解释变量(客户基本属性、通讯详情、关系网分数),对客户进行描述。因变量Y取客户历史违约数据(历史违约总天数、历史黑名单等),从而构建模型。
关联分析——客户风险预估
通过客户违约情况及历史黑名单信息,给每个客户赋初值(0~1随着数据增大,客户风险更高),通过关系形成状态转移矩阵(邻接矩阵),并在状态转移矩阵中循环,直至收敛稳定,得出每个客户的权重,该权重可视为通过客户联系人得到的客户风险概率
x=Ax
A为邻接矩阵(亲密度),X的稳态就是特征值等于1的特征向量。
关联分析——扩充欺诈样本
在信贷申请环节面临的欺诈,其中很大一部分属于团伙欺诈;
公司案调在前期通过电话、回访等手段能获取少量的欺诈申请的标注,但因为这些手段成本很高,所以欺诈样本一般极少,对建模来说不利;
因为样本过于稀少,使用一些监督室的机器学习方法,效果可能都不太好。通过以上联系人等信息项传播欺诈概率,可将有效欺诈样本进行扩充。