原创专栏:谈谈我对评分模型的理解

在准备给FAL的读者朋友们讲讲评分模型之前,我其实是不太想写有关评分模型的相关分享。

一是因为我开始创业后,自身更多关注企业管理与创新发展,评分模型技术关注度不再像以前那么紧密;还有另一个原因是,标准评分模型开发技术似乎已经快“烂大街”,一天N个卡的开发好像大家已习以为常,在模型技术中仿佛有了一条“鄙视链”:会LR的鄙视AHP,会ML的鄙视LR,会DL的鄙视ML。

我们运营小伙伴最近跟我反馈,现在推荐去面试的Modeler,自己都觉得不玩转一些高阶算法甚至图谱、联邦学习都感觉自己特别Low。

但又有多少人敢说自己透彻地了解一个算法,哪怕只是大家认为最简单的Logistic Regression。

正巧,最近数据监管风声鹤唳,联邦学习也备受吹捧。

说实话,联邦学习我还真没有详细了解,在这里也不班门弄斧了。

那为什么我还要谈谈自己对评分模型的理解呢。

一是希望以此文为个引子与大家交流学习,让自己别落后太多。另一个是也许我的一些观点想法,能对大家关于模型本身有一些顿悟,如果顿悟错了,就一笑而过即可。

模型算法可以简单点

前两天看到余旭鑫先生写了一篇“模型策略开发再入门”的文章,里面有一段我记忆还蛮深刻:“有一个论坛交流,想请我去讲一下模型以及模型的开发,并且把讲演稿提前发给会务。没两天市场公关部就向我转达了会务的回馈,说这个内容过时了,太浅了,要我讲些更加有深度的,最好是最前沿的机器学习方法。我当时脑子里一下子出现了很多问号和感叹号,但还是很平静地让市场公关部向会务转述说:“如果只是想听最先进的最前沿的机器学习技术的话,那我安排我部门的分析咨询总监或经理去讲就可以了。”

在方面,我与余旭鑫先生蛮有共鸣。

我在与国外(如美国)的风控同行管理者交流或听讲座的时候,大家都认为评分模型甚至风控模型应该简单有效即为完美,既能很好的与策略规则匹配控制住风险,同时机器并发效能也能支撑,满足高透明、高稳定、高精准和易优化的模型就是好的模型。

但在与国内风控同行交流的时候,追求算法、模型的复杂程度,衍生特征的N重构建,这些技术极致的思想占据了大部分时间,但对于模型的应用、模型的调优甚至数据质量本身这方面关注较少,更别说评分模型与业务匹配程度、实际效能成本等方面的考量。

国内这样的现象,让我曾经几度都开始怀疑我们的模型算法技术,难道已经位列世界第一?

我曾经还怀疑,但我现在感觉自己真的快信了。

但事实是如此吗?

我最近咨询过一些大型金融机构的风控模型团队,他们线上80%的信贷业务应用的评分模型还是基于逻辑回归算法,更复杂的机器学习模型要么就是闲暇时间拿来测试玩玩,要么就构建一些特征变量(大部分这些变量最终还没办法应用)。

为什么会出现理想与现实这么大的差距?

这与金融业务基因有关。

金融行业本质是保守的,它不需要像互联网一样高歌猛进,它需要在稳定运行的基础上实现利润最大化。

这几年伴随着金融与数字科学的融合创新,大多数正规金融机构在思想上好不容易从传统线下面签的风控模型逐渐转移到线上半自动或全自动的风控模型,试想,对于运行Xgboost、神经网络等完全过程黑箱的评分模型,身居要职的风险管理者能有多放心。即使,现在已经有专业团队开始研究如何将黑箱变灰箱,灰箱变白箱(比如SHAP),但别忘记,目前复杂算法包的开源调用本身也存在不成熟等缺陷。

真正在线上运行各种复杂机器学习模型的机构,要么是金融科技公司(不需要对风险不良兜底负责),要么是技术派的风管团队(技术派的风管团队,说不定人家Marketing做的一流)。

其次,模型技术即然已经这么发达,为什么还没有替代策略规则呢。

在风控架构中,真正能扛住风险的只有规则,而评分模型是对风险不良控制的锦上添花。模型不是刚需的,它是在市场空间不断压缩的过程中,实现利润空间分配和利益最大化的工具。但金融本质决定,利益最大化并不是正规金融机构最需要的,尤其是现在的中国金融环境。

要知道,评分模型在风控中的实际作用主要有两种:一是进行最终风险的兜底,二是进行拒绝豁免,对于风险拒绝,目前现阶段很少实际应用,除非一些特殊公司和特定产品。

只要能实现这两个作用之一的模型,就已经是成功的模型。

再复杂的算法,在没有数据或者数据质量不佳的前提下,都是“巧妇难为无米之炊”。

说到数据质量,有多少人在评分模型开发前仔细分析过使用数据的质量。

我想,大部分建模人员分析数据质量的时候,基本是看一看样本好坏灰数量和占比、数据缺失率、0值占比、连续变量取值范围和分位数,离散变量枚举值分布等一些常规操作,然后开始对数据处理一顿操作猛如虎,殊不知这种质量分析漏掉了很多信息。

打个比方,在样本统计的时候,是否有检查坏样本在时间维度上过于集中等问题;在变量分布上,是否有重点观察最值是否有异常情况以及变量分布是否符合预期;在进行数据统计及变量分布分析过程中,是否按照时间切片细化,了解变量在时间上是否有较大的波动存在,如果存在是否有深究原因;在运用指标进行二次构建的时候,是否有怀疑指标本身业务逻辑可能就存在问题。

对数据的洞察和关注,应该要多于算法本身。

讲这么多,就是希望提醒大家,别把简单的事复杂化,哪怕是模型也一样。

搜索:「 金科应用研院」

可以从微信公众号菜单栏点击「在线学习」

更多风控资讯与干货学习资料,都在微信公众号

回复关键字: 「风控量化福利包」➡️领取干货学习资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值