评分模型是通过对潜在客户和存量客户的数据进行分析,用以预测他们未来表现的一种方法。
任何事情抓住了主要矛盾就能达到事半功倍的效果,在信贷领域,评分系统无疑是信贷领域的主要矛盾。
评分模型不管在技术含量,数据精确性,数据覆盖度,以及人才稀缺性上都成为了信贷领域的核心。
评分模型掌握信贷审批的生杀大权,不管是从哪里来的流量,铁面无私。在了解评分模型之前,我们先看一个客户的评分模型。
这是大数据公司某盾出具的客户贷前审查报告中,报告中客户申请得分100分,(某盾分为0-100分制,分数越高,客户风险越高)
通过评分模型能够为决策者提供非常丰富的统计信息,辅助风险人员对客户进行审批。
金融科技公司大昌公司产品经理大熊,最近准备系统性梳理出评分模型的搭建过程,以决定是否是自己搭建评分模型还是外部采购通用评分模型。
让我们跟随着大熊了解评分模型的从0-1。
评分模型的分类
评分模型按照场景可以分为信用评分,反欺诈评分,催收模型等。
评分模型的使用场景最适合线上小额信贷业务,这类业务额度小,数量大,要求放款时效性强,需要很快的审批效率满足用户的体验要求。
当下“秒批秒放”已经成为了一款信贷产品的优势之一,背后的支撑就是评分模型。
比如大额信贷因为对担保和抵押的要求,评分模型的作用就相对不是特别大。
比如房贷和车贷,需要对汽车和房产进行抵押,评分模型只能作为辅助作用。当然汽车哪怕被抵押了,还可能被倒卖,所以评分模型也会有关键作用。
评分模型的优点
相比较人工审批动则几十人的审批团队,评分模型能够大大提审审批的速度。
只要评分模型建立之后,那么相对人工审批的成本低,并且效率高,同时评分模型还能避免人工审批的主观性,并且保持数据的一致性。
因为评分模型的存在,对审批之后的客户还可以跟踪其贷后表现,从而优化模型。·
因为评分模型的存在,我们可以对一定分数的客户进行提额或者降额,从而支持精细化额度的运营诉求,最后的结果是对利润更加可控。
评分模型的缺点:
评分模型需要花费较长时间开发,花费较长时间的资源,这不是所有企业都可以承受的。
同时评分模型只能统计预测,不能对个体进行完全确定的预测,即不能完全确认一个客户的好坏,它只能给出客户好坏可能性的比率。
·由于经济的变化,评分模型并不是完全保持一成不变的准确率,比如疫情来了,那么需要降低评分系统的预期。
评分模型的建设
评分模型的搭建过程分为8个步骤,当然线上跑模型需要单独的系统支持,注呱说产品在其它文章中,我们专门讲评分系统的搭建过程。
一、客群分析
不同的客群尽量需要不同的评分模型,比如给个人小额现金贷款,和汽车分期贷款,小微企业贷款就需要不同的评分模型。
如果大昌公司已经有了针对大额现金贷款的评分模型,那么如果要新上一个小额现金产品,初期也可以把小额现金产品的客群纳入大额现金贷的评分模型中,但是最好提前做数据验证匹配度。
如果不经过客群分析,胡乱套用比如汽车分期贷款的模型套用到小额现金贷款中,那显然是不合时宜的,就如女人的高跟鞋再好看,给男人穿还是不合脚的。
二、业务梳理
在业务梳理阶段,需要确认新产品的业务流程,比如是用app进件,还是通过经销商进件,不同的进件流程,意味着风险和信息采集不同,评分系统的建立也不同。
通常线下进件能够收集的数据有限,第三方渠道进件收集数据也不全,最好是通过自有APP进件,这样能够收集的数据才是最全的。
三、建模方案
一般来看信用建模和反欺诈建模的场景最多,建模方案确认用什么算法模型,梳理能够收集到的信息,如下图。
客户信息分为描述类信息,行为类信息和关联类信息,每一个信息种类下都有几十个到上百个数据特征指标,想蚂蚁金服每个客户有几千个数据指标也合情合理。
所谓生态公司的优势就在于数据的收集维度足够多。
四、选择样本
选择样本要遵从以下几个原则
(1)样本必须能代表评分模型覆盖的人群。例如大昌新业务是江浙沪的汽车金融业务,那么样本客户也需要是江浙沪的地区的客群,这是基本逻辑即要做什么客群业务,必须要用该客群的样本。
(2)选择样本的不应该过少,通常至少要1000千,当然数量上当然是越多越好,如果样本数量过少,评分在进行算法统计的时候,就失去了价值,因为算法需要足够的数据量。
所以大熊这次准备了五千个客户样本用于测试。
(3)其次样本中的客户要明确定义好客户和坏客户,坏客户不同的公司定义不一样,大昌公司定义N3即连续逾期3个月,就要代偿或者核销,某银行信用卡也可以定义逾期N2即代表坏客户。
上图是大昌汽车金融业务部门N1逾期数据,如果拿这份数据去做评分模型的样本,大家觉得是否合适呢?
1.2.3. 三秒思考时间~
答案其实并不合适,N1只是轻微的逾期,在汽车金融实际业务中N1逾期率可能大于10%,如果把所有的N1都当作坏样本,那么评分模型注定不够准确。
(4)所抽取样本的时段必须有建模所需要的数据。小额现金贷产品通常选择1年之内的申请人数据,车贷产品一般选择1-3年的申请人数据。
因为这些账户有充足的时间产生好的或坏的贷后表现,时间太久的话这个时段的建模数据可能没有,时间太短样本数据没有贷后表现。
五、建立模型
选取特征变量只是第一步,就是上面说的把能收集到的客户信息都梳理出来。
由于互联网已经完全融入了我们的生活,我们的数据基本上在互联网上有了留痕,这样的好处是方便数据收集者建立更好的模型。
坏处是大部分数据没有经过我们的允许,被过度使用了,当然数据安全不在今天的讨论范围内。
比如分析信用卡逾期次数,如果逾期次数多的客户在贷后表现具不良,没有逾期记录的客户贷后表现很好,那么信用卡逾期次数就是一个好和坏客户的特征。
与此相反某一特定的特征变量可能在好、坏账户之间没有任何区别,比如行为数据记录客户是吸烟和不吸烟,并不能和客户的贷后表现直接关联,在这种情况下,这个特征就不会被用在评分卡中。
在评分建模的过程中可以收集几百上千个特征,以寻找相应的特征是否在好、坏账户之间存在差异。
特征越多,开发成本越高,维护成本也越大,实际业务过程中应该灵活掌握,即使是一万个特征变量或者个位数的特征变量,本文的方法论依旧成立。
这么多特征其实真正有作用的特征其实不多的,比如客户的手机开机状态、在网时长、公安网、法院网、个税、信用卡逾期记录等。
当特征变量很多的时候,就需要对每个特征变量进行分配权重,而分配权重 过程一个评分模型的设计框架就有了。
在以上权重中,我们把前三项设置成超过80,粗暴但是有效,当然这是简化的情况。
关于权重得分,我们找到网上一个例子,
以广州为例,假如其GDP的评分为9.5分,GDP增速评分为8分,人口增长评分为9分
这个时候我们需要知道其综合评分,我们给GDP 权重占比50% GDP增速 权重占比30% 人口增长 权重占比20%
我们可以计算出其综合评分为9.5*50%+8*30%+9*20%=8.95分
设置分数阈值,通过分数阈值,我们确定一个总分数,理论上高于该分数的所有客户都会通过,低于该分数的所有客户都会被拒绝。
在决定是否接受/拒绝某个客户时,最有用的是模型预设好的各个分数段的审批结果和坏账率。
比较理想的情况下我们提交的样本,在评分模型的分布图上符合正态分布。
但是如何设定通过和直接拒绝的分数阈值呢?可以通过核销率和通过率来判断。
在样本中,假如我们 坏客户是核销客户,当每个客户都跑了一遍模型有了得分之后,那么我们是不是就可以算出每个得分区间,客户的核销率和通过率?
为了提高通过率,势必放进来更多坏客户,核销率就会提高,这是一种权衡过程,就看我们当前的运营策略是先保通过率还是核销率。
比如我们新接入了一家资金方,那么为了维护良好的开端,就需要保持通过率提供,等有了一定资产合作规模,在降低通过率,从而降低核销率。
六、模型评估
一个评分模型的预测能力通常用两种测度方法来评估:一种是K-S检验,另一种是区分度。
K-S值(数学家柯尔莫哥洛夫(Kolmogorov)和斯米洛夫(Smirnov)命名)计算和客户和坏客户的累积分布之间的差异。
我看看举例KS值是怎么推导出来的,比如我们有5000个样本数据,这里面包含了好客户和坏客户,通过逻辑回归等建模的方式(此处省去建模过程)我们得到了每个客户都对应有一个信用分。
那么这份数据的客户除了有好和坏的标签,每个客户也有对应的信用评分。
整个样本中我们又可以把客户分成四类样本,他们分布是
True Positive (真正, TP)被模型预测为正的正样本;
True Negative(真负 , TN)被模型预测为负的负样本 ;
False Positive (假正, FP)被模型预测为正的负样本;
False Negative(假负 , FN)被模型预测为负的正样本;
其中每种类型的真实比例的计算公式如下:
True Positive Rate(真正率 , TPR)或灵敏度(sensitivity)
TPR = TP /(TP + FN)
正样本预测结果数 / 正样本实际数
True Negative Rate(真负率 , TNR)或特指度(specificity)
TNR = TN /(TN + FP)
负样本预测结果数 / 负样本实际数
False Positive Rate (假正率, FPR)
FPR = FP /(FP + TN)
被预测为正的负样本结果数 /负样本实际数
False Negative Rate(假负率 , FNR)
FNR = FN /(TP + FN)
被预测为负的正样本结果数 / 正样本实际数
定义 F(s|B)代表真负率,定义F(s|G)代表假负率,于是我们就可以得出一个样本比率为纵坐标,信用得分为横坐标的两条曲线,如下图。
在真实贷款中,我们希望尽量把坏客户拒绝,但是好客户避免误伤,我们的希望在数据上的提现就是F(s|B)-F(s|G) 的最大值。
而这个最大值就是KS值。
假如图中相差最大处F(s|B)=0.8,F(s|G)=0.4,那么KS值=0.8-0.4=0.4。
好客户和坏客户之间的累积分布的间隔越大,说明建模后的信用评分区分度越大。
通常我们认为超过30个百分点KS值是可接受的,如果能超过50%那就属于优秀的水平了,KS值越大,越能体现建模的水平。
七、模型部署
如果一开始是如果你们的审批是线下后台的审批,如果直接引入评分系统,那么可能有大问题。
曾经我们就有这样的惨痛经验,上线了一个自认为很ok的模型,严重降低了进件团队的通过率,被渠道老总强烈投诉!
所以实施部署的关键是要高管、风险以及渠道团队的充分理解,在模型部署之前应该充分培训和宣导评分模型的战略意义,并且初期评分模型尽量要有可解释性,这样才会给人信服。
评分系统还应该评分结果转人工,在汽车金融业务中,有些经销商刚刚开始合作,他们故意用一些低质量的客户来进件,如果这时候的营销策略是维护经销商关系,以坏账换取信任,那么就要适当的开绿灯,等到线下团队和经销商的关系稳固,才慢慢收紧审批标准。
转人工的原因还有就是就是评分模型的数据源可能出现异常,那么就需要人工进行就调整。
作为产品设计者,预留后门是为了给自己留出生命线。
八、模型监控
模型监控的主要指标是客群稳定性分析和特征变量稳定性分析。
客群稳定性报告将近期实际申请人的信用得分按分数段(以月或季度为单位)与预测分布进行比较。
客群稳定性是发现潜在问题的一个很好的早期指标,该指标能够很好的反馈当前客群是否存在明细变化。
比如上图中红色的实际申请的客群,在0-4分的区间,实际发生的客群比预测的要高,说明实际的客群质量下降了。
如果客群分布变化,你就知道进入的客群也是不同的,比如这时候就可以找渠道方进行沟通,表明最近的渠道质量变化,客群质量变化,在模型能力不变的情况下,最终影响的是盈利效果。
特征变量稳定性分析是以时间维度与样本的特征分布进行比较。
上图中2022Q2季度收入5000以下的实际客户占比明细增大,这说明
客群以及经济环境,甚至是数据源本身出了问题,这时候就需要去寻找原因,否则模型最后的预测结果将不准确。
外部评分模型
大昌公司可以定制开发自内部的评分模型,但是如果如大顺这样的小消费金融公司,由于数据和开发资源都不够,又想把风险模型做好,只能引入外部的评分模型。
目前国内外部评分模型的公司也很多,比如同盾、百融、数美这样的机构,他们根据行业客户不同,推出了各种的行业评分
他们一般是根据和银行以及小贷公司合作,积累了大量的数据资源,加上自身的技术积累,向外输出评分模型也是符合市场需求。
根据行业可以区分汽车金融评分,线上小额贷款模型,信用卡、理财客户模型等。
根据行业可以区分反欺诈模型、客户信用评分模型,催收模型,收入预测模型,客户流失模型。
由于这些厂商接入的金融机构很多,通常他们是在头部打造一个样本,然后在向下推广,像大顺这样的腰部以下企业,完全可以信任他们的模型。
如果是大昌这样某部机构,作为第一个吃螃蟹的人,最好还是要对数据进行验证,并且评判数据的好坏。
使用外部数据评分系统的好处是这些评分会不定期的更新,因为他们接入的机构会越来越多,所以评分模型也在进化。
很多机构的做法是同时接入很多机构的评分模型,让不同的评分模型进行交叉验证,增强对客户的识别能力。
总结
一直以来由于小微企业自身规模小,经营风险大,缺乏担保物等问题,常常很难达到传统信贷机构的放贷标准。
在授权合规的前提下,评分模型可以收集银行数据、税务数据、企业行为数据和场景数据。
谁先建立了领先的企业评分模型,谁就能快速的抢占市场。
在个人信贷领域,领先的个人信用模型也是快速放款,自动审批,和降低风险水平的利器,是信贷领域真正的核心。
如果喜欢文章欢迎关注公众号
也欢迎加入信贷产品经理社群,目前已经有蚂蚁金服、微众银行、招行、平安、中银、马上消费,海尔,中原等消费金融产品经理加入。
申请方式:
请提前备注公司和行业,扫码加我入群👇