目录
智能风控体系
在智能风控时代,许多头部的互联网金融公司已经能够实现纯线上自动化审贷,这无疑大大提升了客户申请贷款的效率和体验。自动化审贷主要依赖于三大核心技术:大数据平台、决策引擎和智能模型。其中大数据平台是基础,为线上的模型和策略提供了高质量的数据保障;决策引擎是媒介,承载了风控人员部署的模型和策略,输出客户的决策结果以及额度利率;智能模型是大脑,类似于传统风险管理体系中业务专家的角色,将原始数据提炼成组合规则和复杂模型,从而实时预测借款人的风险水平以及匹配的定价区间。
大数据平台
与传统金融机构不同,互联网金融机构面对的客户更为下沉,通常缺乏征信记录或者财产证明这些强金融属性的数据,因而风控人员需要更依赖其他弱金融属性的数据来帮助决策,这时就需要搭建一个稳定而高效的大数据平台来处理这些海量的数据。大体上来说,大数据平台可以分为ODS、DW和DM三层,分别对应着数据清洗、数据管理和数据应用这三个核心功能。
原始数据清洗
操作数据存储(Operational Data Store,ODS),又被称为贴源层,是原始数据经过ETL(Extract-Transform-Load)清洗后存储的位置。ODS通常有如下几个作用。
- 在业务系统和数据仓库之间做了隔离,将业务系统产生的原始数据备份的同时,保证了两个系统之间数据的一致性。
- 存储了业务侧的明细数据,方便后续的查询和加工以及报表的产出。
- 完成数据仓库中不能实现的一些功能,相比于DW和DM层通常使用Hive查询,ODS一般利用更底层的编程语言加工而成,可以实现一些更复杂和更高效的ETL操作。
此外,ODS层保留了大量的历史明细数据,通常约定只能增加不能修改,利用时间分区的方式进行区分。
数据仓库管理
数据仓库(Data Warehouse,DW)是企业级数据集中汇总的位置。DW层最大的特点是面向主题,根据不同的主题设计表的结构和内容,这样做的好处是排除了与主题无关的冗余数据,提高了特定主题下的查询和加工效率。另一方面,数据仓库作为连接原始数据和标签之间的中间层,必须保证数据质量,包括唯一性、权威性、准确性等。以风控主题为例,DW层中通常会包括授信、支用、还款、催收等一系列数据,方便后期相关标签的计算。另外,还会有一些公用的维度表被存在与DW层平行的DIM层中,这些表通常是一些城市、日期类的字典数据,贯穿多个主题数据。
数据标签应用
整个数据平台的最上层是数据集市(Data Market,DM),也是与风控人员联系最紧密的一层。顾名思义,数据集市就是将数据仓库中的主题数据根据不同的业务需要挑选出来,构成特定的业务场景标签。例如想构建与客户逾期表现相关的标签,只需要将DW层中与还款相关的表抽取出来加工即可,这样不仅结构清晰,还保证了标签计算的效率。由于DM层的数据标签与业务联系较为紧密,建议在DM层逻辑设计的初期,让更多的业务人员参与进来,这样才能避免后期技术与业务在标签计算口径上不统一的问题。
最后想补充说明的是,由于大数据平台的计算链条较长,且充斥着大量的数据处理步骤,在实际生产中平台的监控和预警机制至关重要,例如对于上下游依赖关系的判断、每个时间分区数据量的监控、邮件和短信报警等,都是把控数据准确性和时效性的必要手段。
决策引擎
决策引擎作为风险管理领域中最具有代表性的模块系统,想必很多风控从业人员都与之打过交道。决策引擎各个模块的功能直接影响着一家机构风险管理能力的落地情况,如果没有一个功能齐全的决策引擎,经验再丰富的业务专家和建模人员也无法施展拳脚。机构通常通过外采和自研两种方式来获取决策引擎,美国两大征信巨头FICO和Experian的决策引擎产品都是比较常见的外采选择,而一些研发能力较强的头部互联网金融公司或大数据技术公司则会选择自研。然而不论通过何种
渠道,以下几个模块功能都是必不可少的。
规则配置
总的来说,风险管理体系中的策略就是由若干条规则组合而成的,因而规则配置是决策引擎中最基础也是最常被使用的功能。风险管理场景下的规则,可能会涉及如下几种形式:规则集、决策表、决策树和函数计算。
规则集
对于单条规则的配置,风控人员需要选择对应的数据标签和阈值,并且约定命中该条规则的结果,比如拒绝或者通过。对于包含多条规则的规则集,风控人员除去需要配置单条规则的内容,还需要确定规则与规则间的逻辑关系,比如“且”和“或”等。同时,对于每个规则集需要记录下生效的风控环节、有效日期、当前状态、优先级、拒绝码、操作人等,方便规则集上线后的跟踪测试和意外情况下的版本回滚。
决策表
决策表多使用在额度、利率和贷款期限的场景下,方便风控人员从多个维度交叉来做出风控决策。例如贷款额度的确定,通常需要从还款能力和还款意愿两个角度来考虑,利用决策表可以更方便地观察到两个标签的分割点和各个方格内对应的额度数值。
决策树
对于具有前后依赖关系的复杂规则,规则集和决策表都不能很好地支持,因而需要引人决策树的模块。决策树基于二叉树的原理,通过配置根节点和内部节点的数据标签及选择条件,实现一个决策路径,这里每层内部节点的输出可以是两个或者多个。决策树的另一个优势就是易于可视化,通过这种树的形式,风控人员可以,清晰地看到多条规则之间的依赖关系和前后流转。
函数计算
对于一些机构,其贷款的额度策略可能如下所示:初始额度=round(min(收入×风险系数+理财-负债,50000),500)。显然,为了实现上述的额度策略,在规则配置环节还需要加入函数计算的功能,例如加减乘除、最大最小、取整等最常见的函数。有些比较完善的决策引擎甚至还具备日期推算、财务计算、文本处理等相关函数。
模型部署
在智能风控时代,搭建和运用模型的能力越来越重要,因而一个成熟的决策引擎一定是可以支持多种模型的导人和部署的。在风险管理场景中,最常见的模型是评分卡模型和机器学习模型,它们的部署方式也不尽相同。
评分卡模型部署
评分卡模型的部署相对较为简单,只需要在决策引擎中选择最终人模的标签,同时设置每个标签的分箱及对应的分数,这样对于每一个借款人的申请,决策引擎都可以实时计算出该客户的评分,并且将模型分数作为一条规则。与规则集类似,由于整个风险管理流程中会涉及多张评分卡,因而需要注明每个评分卡的名称、有效时间、当前状态等,方便评分卡模型的统二管理。
机器学习模型部署
随着智能风控技术的发展,很多头部互联网金融机构早已不局限于传统的评分卡模型,而是开始大规模地使用机器学习技术来搭建模型。与评分卡模型相比,机器学习模型的人模变量更多,且不再是变量之间加权和的线性关系,而是一种非线性关系,因而普通的模型部署功能已经不再适用于复杂模型部署的需求。目前比较好的解决方案是在决策引擎中支持 PMML 文件的导入
PMML(Predictive Model Markup Language,全称预测模型标记语言)本质上是利用XML格式描述和存储了机器学习模型。PMML文件最大的优势是支持跨平台开发,风控建模人员可以在Python、R、Spark MLlib等环境中训练机器学习模型并产出PMML文件,进而导入决策引擎中进行实时预测。
print('要天天开心啊')