不定期更新信贷大数据风控的相关内容(命名为#大数据风控手册#),一是对工作的沉淀和总结,二是为对大数据风控感兴趣的大家提供参考。今天来看看做大数据风控,到底做什么。
欢迎添加微信“huaiping595468”,一起探讨风控课题。
转载请注明出处。
----------------------------------------------------以下是本文正文-------------------------------------------------------
“大数据风控在做什么”是个很大的课题,先从框架上看看,所谓大数据风控包含了哪些内容。
一、风控规则
举个例子,年龄在22周岁(含)至60周岁(含)的客户才被允许申请某贷款产品。“年龄在22周岁(含)至60周岁(含)区间内”便是一条风控规则,更确切的说,这是一条单变量准入规则(只有一个变量:年龄)。
风控规则便是由一系列的单变量规则和多变量规则组合而成。通常风控规则包含以下几类:
(一)准入规则
除了包括基于贷款管理办法约定的规则,例如年龄、地域、关系人、行业等基本规则,还包括行内信用表现相关规则,例如在行内当前是否逾期、是否有某类贷款余额等。
(二)反欺诈规则
分为个人反欺诈规则和团伙反欺诈规则,从维度上又包括设备、地址、ip等的黑名单、聚集性、变化规律、行为习惯等方面。
(三)多头借贷防控规则
多头借贷规则主要借助外部三方数据的多头借贷数据、人行征信的多头借贷数据进行规则的分析和设定,具体规则的阈值一方面可以参考业务经验,一方面可以用置信区间方法。
(四)人行征信规则
尽管近几年外部数据的应用越来越普遍,对于银行信贷业务来讲,人行征信始终处于无可替代的作用,由人行征信可以进行很多规则的建设,比如多头借贷、当前逾期、历史逾期、征信查询、收入偿债等等。
二、风控模型
模型是一种运用数据挖掘技术和统计分析方法,通过对客户的人口特征、信用历史记录、行为记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征的一种量化评分工具,可以利用借款人特征变量计算出一个数值(得分)来代表借款人的信用风险,并将借款人归类于不同的风险等级。
在信贷全流程风控中一般包括贷前申请评分模型(a卡)、贷中行为评分模型(b卡)、贷后催收评分模型(c卡)、欺诈评分模型(f卡)四个。由于数据收集的局限性,在具体落地建设时,以a、b两卡最为常见。
(一)模型价值
信贷风控中引入了风控模型,使得在对客户的信用评价上,由原来的主观判断转变为客观的量化评价,减少了人工决策的偏差。由于模型运行机制的自动化和智能化,也明显的提升了业务的审批效率。
(二)几种模型的差异
几种模型的差异主要体现在应用场景、模型所使用的数据、运行频率几个方面。
三、风控策略
策略在百度百科的定义是:可以实现目标的方案集合。这一定义非常精准的描述了风控策略的含义,即风控策略是实现风险防控的风控规则、风控模型组合方案的集合。
(一)串行策略
举个例子,仍然以上述年龄为例,大于60周岁的客户在申请时,给予“拒绝”,这是一条拒绝策略;年龄在55周岁至60周岁的客户需要经过“人工审批”,这也是一条策略。
(二)累积策略
除了上述策略:拒绝、通过、人工审批(有时也叫做审慎审核),还可以通过对每条策略进行打分的方式进行策略制定,例如:近1个月多头借贷申请次数>7拒绝;7=>近1个月多头借贷申请次数>5,计2分,通过;5=>近1个月多头借贷申请次数>3,计1分,通过;贷申请次数<=3,直接通过。同样针对其他比如历史逾期等方面也可以设定类似策略。最后,对所有规则的策略命中的情况进行统计,例如累积命中得分>10,拒绝;累积命中得分>=8,人工审批,等等。
对于信用评分的策略也可以用上述两种方式进行搭建,两种方法的底层框架都是决策树。
四、决策流程
- 决策流程
模型和策略分别建好后,如何应用到风险决策呢?这时轮到决策流程出现了。基本上决策流通过下图所示的方式将模型和规则策略串起来用于决策。
在串决策流的时候需要考虑:1、策略之间是并行还是串行;2、串行时考虑成本最小化,即将0成本、低成本的规则串在前面,随着流程往下走漏斗筛选剩下的人越少,需要调用的高成本数据也越少。
决策流程在上线时,建议先采用abtest或冠军挑战者方法进行试验,运行一段时间并分析效果后,再进行全流量切换。