浅谈大数据风控的基本框架

最新推荐文章于 2025-05-03 14:56:22 发布

CreditX氪信

最新推荐文章于 2025-05-03 14:56:22 发布

阅读量1.2w

点赞数 3

文章标签：互联网金融大数据风控消费金融人工智能

本文转载自 CreditX氪信，作者唐正阳

近日，中国人民银行成立金融科技（FinTech）委员会，旨在加强金融科技工作的研究规划和统筹协调。

随着AI、云计算在金融业务层面的快速渗透，也倒逼监管跟进升级，以进一步加强监管的有效性。事实上，这次央行提出监管科技（RegTech），也是对金融科技的肯定，希望其在驱动金融创新，引领金融规范化发展中发挥积极作用。

金融的核心在于风险，现下谈及互联网金融，很多人都对大数据风控并不陌生，也都在行业野蛮发展的过程中有自己的理解。但如果要定义什么是大数据风控，可能不少行业外围同学的看法难免有些偏颇和碎片化。下面笔者浅显地从大数据风控的基本内容和框架出发，主要为想要了解这个行业的同学简要做一个相对完整的介绍。

大数据到底有哪些？

首先我们需要厘清大数据的概念，当下各行各业都在探索大数据的价值，大数据的定义也很多。从技术的角度来理解，本质就是来自多个渠道和系统的结构化和非结构化数据，在金融领域，尤其是消费金融，我们界定大数据到底有哪些维度，其实芝麻信用分是一个非常典型例子，虽然不同公司有自己的分法，但数据主体大都可以归类为身份属性、信用属性、行为数据、消费属性、人脉关系这五大方面。

身份属性，这是最基础的，包括真实的身份信息、学历、就业经历等。

信用属性包含的方面比较多，比如过往的履约记录、固定资产、流动资产、收入等都会纳入进来用以衡量一个人还款能力和还款意愿。

过去我们去银行办理贷款，以上这两个维度就是传统风控的数据来源，但由于大多数人没有这方面比较完整的记录，且流程冗长麻烦，因此只有少部分人才能享受金融服务。

现在随着互联网的爆发式发展，以及普惠金融的崛起，越来越多的机构正将海量互联网数据和金融结合探索其在表征风险方面的价值。如上所述，长期缺乏金融产品的人群基数庞大，需求旺盛，因此从创业公司到BAT到金融机构，都在拓展更多领域的大数据以抢占消费金融爆发的窗口期。

数据拓展的第一个领域是消费属性，这块主要是电商或交易数据，比如日常购物商品、消费金额、消费时段等都可以从不同角度来分析出一个人消费稳定度，消费档次，还款能力等风险特征。

其次，人脉关系也是很重要的一个维度，俗话说“近朱者赤，近墨者黑”。很多时候你的微信朋友圈、经常打电话的朋友也反映了你在风险上的表征。生活中我们和同事沟通比较频繁，而如果一个人社交稳定度差，可能说明他经常换工作，显然风险也会相应增加。

最后一个维度是行为数据，这块数据涉及面比较广泛，主要是用户在APP上的活动所体现出的行为特点，包括浏览不同类目的频次、时间、风险偏好等等。

说到这，我们对大数据风控涉及的几类数据应该有了一个基本的认识，那在具体工作中，我们是不是应该先把这些数据都收集好才能做好工作呢？

答案是否定的，因为数据都是有成本的，开展一个金融业务，从数据、模型、服务再到最后的收益，更为关键的是业务本身的形态，再进一步扩展至产品、场景，我们会发现不同的场景面对不同的客群，风控关注的风险点都会有一定的差异，再反过来寻找能够表征这些风险点的数据也会有所侧重。因此，如果要厘清大数据风控该用哪些数据，首先要对风控场景有所了解，其中最为核心的是理解不同场景下要抓住哪些金融风险。

金融风险的理解

风险的概念比较大，为了给大家提供一个最基本的视角来了解，下面以线上信用贷款举例来阐述，这也是互联网消费金融最主要的方向之一。在这个场景下，我们面临的风险主要是信用风险和欺诈风险两块。

首先是欺诈风险，据数字，在中国，互联网金融50-70%的损失来自欺诈，这也可以说是风控业务中最困难的地方。造成这种现状的原因比较多，一方面是诸如现金贷类型的消费金融短期爆发式发展，大量创业公司涌入赛道以互联网获客运营的流量思路做金融，与此同时相应的风控经验和能力缺失，因此给专业的欺诈分子暴露了较大的风险敞口，通过简单研究业务规则漏洞，并通过互联网传播，可能带来较大的损失；另一方面也是欺诈产业链自身研究实力不断的完善有关，现在的欺诈已经从以往单一的个人欺诈演变为有组织、有规模的集团化欺诈，链条上盗号，数据泄露作为基础账号库，已衍生出一系列包括黑产交易、ID Mapping、定向攻击的完整产业链，其中的分工和技术也非常专业和精细化。

如图：这种设备称为养卡设备，俗称“猫池”，实际上就是一个号码卡插槽，可以在不拆卡的情况下将整张卡插到猫池里，连接电脑后使用，还可以接收短信验证码。现在在各种平台注册时都需要填写短信验证码，“刷手”为了获取平台的福利会利用猫池养卡，规避平台的身份确认短信。

再比如短信拦截马，这是一种可以拦截他人短信的木马，让被攻击者收不到短信，并将短信内容截取到攻击者手机上。这种木马最常见的是通过钓鱼、诱骗、欺诈等方式诱导用户安装，然后通过拦截转发用户短信内容，以此获取各种用户重要的个人隐私信息，如用户姓名、身份证号码、银行卡账户、支付密码及各种登录账号和密码等，造成这些信息的泄露，再利用此信息从而达到窃取用户资金的目的，严重威胁用户的财产安全。

第二块简单谈一下信用风险，其定义是借款者违约的风险，换句话说，也就是借款人因各种原因未能及时、足额偿还债务或贷款而违约的可能性。一般，我们会从还款能力和还款意愿两个角度去分析信用风险，但在小额信用贷场景中，由于额度一般为2000左右，少就几百，多也就5000，一个正常有工作的人很少会不具备按期还款的能力。所以在这点上我们更多的是从还款意愿角度来看，即借款人对偿还贷款的态度，现实中有不少人会借钱不还，这就是常说的“老赖”，如果我们以违约概率的目标去识别他，还是能挑出不少有正常借款意图的人。

大数据风控体系的初步构建

现在我们有了对大数据和风险的基本认知，但如何真正从大数据提炼出风险表征，并进一步转化为实时的金融风险决策服务呢？事实上，这需要重构一整套风控数据架构体系，过去传统金融机构在身份属性和信用属性的数据上沉淀了丰富知识，但在互联网金融业务中，用户能够关联的更多是消费、社交和行为类数据，且越是小额分散的业务，数据的金融属性越弱。近两年小额现金贷也正是由于这部分数据的风控知识体系缺乏，因此陷入高利率覆盖高坏账、暴力催收等乱象。

随着监管趋严和行业愈加规范化，大数据风控，尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞争力，除了基本的身份验证、合规、黑灰名单、规则过滤以外，要防控欺诈风险和信用风险，还需做好以下三个维度的准备：

第一是设备层面，现在成熟的APP都需要辟如更换登录设备时重新输入短信验证码，或者登录时得手动滑动验证码等，这些既是挡住黑产的第一道关，也是后续风控的重要数据基础。

第二是知识体系层面，拆解开来看，核心有2点，一是知识工程，二是模型。目前最领先的消金机构都有一套相对成熟的针对特定数据domain的风险特征库和分客群、分目标的模型，比如反欺诈模型、申请评分模型、风险行为预测模型等，贷后还会有催收模型、客户流失预测模型等。在这过程中，引入AI处理弱数据，并在大量样本上不断迭代模型是关键。

第三是系统层面，试想我们有了清晰的数据认知，结合到场景和风险理解我们也摸索了一套经验证的数据使用方式，但如何与我们的业务系统对接，成为实时的数据服务？这还需要一个完整的支持数据接入、加工处理、得出结果以及监控管理的在线引擎。随着线上个人贷款规模的爆发式增长，控制风险、解放人力已成为最紧迫的需求，数据智能自动化引擎是机构“跑起来”的强大推动力。

风控与征信

最后，简单谈一下大数据风控和征信的区别，不少同学会认为风控公司就是征信公司，这其中还是有较大区别的，尤其在大数据领域。

据百科，征信是专业化的、独立的第三方机构为个人或企业建立信用档案，依法采集、客观记录其信用信息，并依法对外提供信用信息服务的一种活动，它为专业化的授信机构提供了信用信息共享的平台。

应该看到，征信所对应的数据还局限在开头所说的身份属性和信用属性范围，也就是强金融数据，而大数据风控认为所有数据都是风险数据，更侧重于将弱数据金融化，再提炼出风险表征。因此，征信本质是大数据风控的子集，覆盖的人群和应用领域也更为狭窄。当下大数据风控和征信的确还处于混业经营的状态，但随着行业发展，可预见市场还会逐渐细分，届时前者将更注重在数据生态体系上的经验和沉淀，后者则侧重在独立性和公信力以及监管合规等方面。