5000字！小白也能从0-1理解评分模型-CSDN博客

本文链接：https://blog.csdn.net/chenxuetao/article/details/121917995

评分模型是通过对潜在客户和存量客户的数据进行分析，用以预测他们未来表现的一种方法。

任何事情抓住了主要矛盾就能达到事半功倍的效果，在信贷领域，评分系统无疑是信贷领域的主要矛盾。

评分模型不管在技术含量，数据精确性，数据覆盖度，以及人才稀缺性上都成为了信贷领域的核心。

评分模型掌握信贷审批的生杀大权，不管是从哪里来的流量，铁面无私。在了解评分模型之前，我们先看一个客户的评分模型。

这是大数据公司某盾出具的客户贷前审查报告中，报告中客户申请得分100分，（某盾分为0-100分制，分数越高，客户风险越高）

通过评分模型能够为决策者提供非常丰富的统计信息，辅助风险人员对客户进行审批。

金融科技公司大昌公司产品经理大熊，最近准备系统性梳理出评分模型的搭建过程，以决定是否是自己搭建评分模型还是外部采购通用评分模型。

让我们跟随着大熊了解评分模型的从0-1。

评分模型的分类

评分模型按照场景可以分为信用评分，反欺诈评分，催收模型等。

评分模型的使用场景最适合线上小额信贷业务，这类业务额度小，数量大，要求放款时效性强，需要很快的审批效率满足用户的体验要求。

当下“秒批秒放”已经成为了一款信贷产品的优势之一，背后的支撑就是评分模型。

比如大额信贷因为对担保和抵押的要求，评分模型的作用就相对不是特别大。

比如房贷和车贷，需要对汽车和房产进行抵押，评分模型只能作为辅助作用。当然汽车哪怕被抵押了，还可能被倒卖，所以评分模型也会有关键作用。

评分模型的优点

相比较人工审批动则几十人的审批团队，评分模型能够大大提审审批的速度。

只要评分模型建立之后，那么相对人工审批的成本低，并且效率高，同时评分模型还能避免人工审批的主观性，并且保持数据的一致性。

因为评分模型的存在，对审批之后的客户还可以跟踪其贷后表现，从而优化模型。·

因为评分模型的存在，我们可以对一定分数的客户进行提额或者降额，从而支持精细化额度的运营诉求，最后的结果是对利润更加可控。

评分模型的缺点：

评分模型需要花费较长时间开发，花费较长时间的资源，这不是所有企业都可以承受的。

同时评分模型只能统计预测，不能对个体进行完全确定的预测，即不能完全确认一个客户的好坏，它只能给出客户好坏可能性的比率。

·由于经济的变化，评分模型并不是完全保持一成不变的准确率，比如疫情来了，那么需要降低评分系统的预期。

评分模型的建设

评分模型的搭建过程分为8个步骤，当然线上跑模型需要单独的系统支持，注呱说产品在其它文章中，我们专门讲评分系统的搭建过程。

一、客群分析

不同的客群尽量需要不同的评分模型，比如给个人小额现金贷款，和汽车分期贷款，小微企业贷款就需要不同的评分模型。

如果大昌公司已经有了针对大额现金贷款的评分模型，那么如果要新上一个小额现金产品，初期也可以把小额现金产品的客群纳入大额现金贷的评分模型中，但是最好提前做数据验证匹配度。

如果不经过客群分析，胡乱套用比如汽车分期贷款的模型套用到小额现金贷款中，那显然是不合时宜的，就如女人的高跟鞋再好看，给男人穿还是不合脚的。

二、业务梳理

在业务梳理阶段，需要确认新产品的业务流程，比如是用app进件，还是通过经销商进件，不同的进件流程，意味着风险和信息采集不同，评分系统的建立也不同。

通常线下进件能够收集的数据有限，第三方渠道进件收集数据也不全，最好是通过自有APP进件，这样能够收集的数据才是最全的。

三、建模方案

一般来看信用建模和反欺诈建模的场景最多，建模方案确认用什么算法模型，梳理能够收集到的信息，如下图。

客户信息分为描述类信息，行为类信息和关联类信息，每一个信息种类下都有几十个到上百个数据特征指标，想蚂蚁金服每个客户有几千个数据指标也合情合理。

所谓生态公司的优势就在于数据的收集维度足够多。

四、选择样本

选择样本要遵从以下几个原则

（1）样本必须能代表评分模型覆盖的人群。例如大昌新业务是江浙沪的汽车金融业务，那么样本客户也需要是江浙沪的地区的客群，这是基本逻辑即要做什么客群业务，必须要用该客群的样本。

（2）选择样本的不应该过少，通常至少要1000千，当然数量上当然是越多越好，如果样本数量过少，评分在进行算法统计的时候，就失去了价值，因为算法需要足够的数据量。

所以大熊这次准备了五千个客户样本用于测试。

（3）其次样本中的客户要明确定义好客户和坏客户，坏客户不同的公司定义不一样，大昌公司定义N3即连续逾期3个月，就要代偿或者核销，某银行信用卡也可以定义逾期N2即代表坏客户。

上图是大昌汽车金融业务部门N1逾期数据，如果拿这份数据去做评分模型的样本，大家觉得是否合适呢？

1.2.3. 三秒思考时间~

答案其实并不合适，N1只是轻微的逾期，在汽车金融实际业务中N1逾期率可能大于10%，如果把所有的N1都当作坏样本，那么评分模型注定不够准确。

（4）所抽取样本的时段必须有建模所需要的数据。小额现金贷产品通常选择1年之内的申请人数据，车贷产品一般选择1-3年的申请人数据。

因为这些账户有充足的时间产生好的或坏的贷后表现，时间太久的话这个时段的建模数据可能没有，时间太短样本数据没有贷后表现。

五、建立模型

选取特征变量只是第一步，就是上面说的把能收集到的客户信息都梳理出来。

由于互联网已经完全融入了我们的生活，我们的数据基本上在互联网上有了留痕，这样的好处是方便数据收集者建立更好的模型。

坏处是大部分数据没有经过我们的允许，被过度使用了，当然数据安全不在今天的讨论范围内。

比如分析信用卡逾期次数，如果逾期次数多的客户在贷后表现具不良，没有逾期记录的客户贷后表现很好，那么信用卡逾期次数就是一个好和坏客户的特征。

与此相反某一特定的特征变量可能在好、坏账户之间没有任何区别，比如行为数据记录客户是吸烟和不吸烟，并不能和客户的贷后表现直接关联，在这种情况下，这个特征就不会被用在评分卡中。

在评分建模的过程中可以收集几百上千个特征，以寻找相应的特征是否在好、坏账户之间存在差异。

特征越多，开发成本越高，维护成本也越大，实际业务过程中应该灵活掌握，即使是一万个特征变量或者个位数的特征变量，本文的方法论依旧成立。

这么多特征其实真正有作用的特征其实不多的，比如客户的手机开机状态、在网时长、公安网、法院网、个税、信用卡逾期记录等。

当特征变量很多的时候，就需要对每个特征变量进行分配权重，而分配权重过程一个评分模型的设计框架就有了。

在以上权重中，我们把前三项设置成超过80，粗暴但是有效，当然这是简化的情况。

关于权重得分，我们找到网上一个例子，

以广州为例,假如其GDP的评分为9.5分,GDP增速评分为8分,人口增长评分为9分

这个时候我们需要知道其综合评分,我们给GDP 权重占比50% GDP增速权重占比30% 人口增长权重占比20%

我们可以计算出其综合评分为9.5*50%+8*30%+9*20%=8.95分

设置分数阈值，通过分数阈值，我们确定一个总分数，理论上高于该分数的所有客户都会通过，低于该分数的所有客户都会被拒绝。

在决定是否接受/拒绝某个客户时，最有用的是模型预设好的各个分数段的审批结果和坏账率。

比较理想的情况下我们提交的样本，在评分模型的分布图上符合正态分布。

但是如何设定通过和直接拒绝的分数阈值呢？可以通过核销率和通过率来判断。

在样本中，假如我们坏客户是核销客户，当每个客户都跑了一遍模型有了得分之后，那么我们是不是就可以算出每个得分区间，客户的核销率和通过率？

为了提高通过率，势必放进来更多坏客户，核销率就会提高，这是一种权衡过程，就看我们当前的运营策略是先保通过率还是核销率。

比如我们新接入了一家资金方，那么为了维护良好的开端，就需要保持通过率提供，等有了一定资产合作规模，在降低通过率，从而降低核销率。

六、模型评估

一个评分模型的预测能力通常用两种测度方法来评估：一种是K-S检验，另一种是区分度。

K-S值（数学家柯尔莫哥洛夫（Kolmogorov）和斯米洛夫（Smirnov）命名）计算和客户和坏客户的累积分布之间的差异。

我看看举例KS值是怎么推导出来的，比如我们有5000个样本数据，这里面包含了好客户和坏客户，通过逻辑回归等建模的方式（此处省去建模过程）我们得到了每个客户都对应有一个信用分。

那么这份数据的客户除了有好和坏的标签，每个客户也有对应的信用评分。

整个样本中我们又可以把客户分成四类样本，他们分布是

True Positive （真正, TP）被模型预测为正的正样本；

True Negative（真负 , TN）被模型预测为负的负样本；

False Positive （假正, FP）被模型预测为正的负样本；

False Negative（假负 , FN）被模型预测为负的正样本；

其中每种类型的真实比例的计算公式如下：

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）
TPR = TP /（TP + FN）
正样本预测结果数 / 正样本实际数

True Negative Rate（真负率 , TNR）或特指度（specificity）

TNR = TN /（TN + FP）
负样本预测结果数 / 负样本实际数

False Positive Rate （假正率, FPR）
FPR = FP /（FP + TN）
被预测为正的负样本结果数 /负样本实际数

False Negative Rate（假负率 , FNR）
FNR = FN /（TP + FN）
被预测为负的正样本结果数 / 正样本实际数

定义 F（s|B）代表真负率，定义F（s|G）代表假负率，于是我们就可以得出一个样本比率为纵坐标，信用得分为横坐标的两条曲线，如下图。

在真实贷款中，我们希望尽量把坏客户拒绝，但是好客户避免误伤，我们的希望在数据上的提现就是F（s|B）-F（s|G) 的最大值。

而这个最大值就是KS值。

假如图中相差最大处F（s|B）=0.8，F（s|G)=0.4，那么KS值=0.8-0.4=0.4。

好客户和坏客户之间的累积分布的间隔越大，说明建模后的信用评分区分度越大。

通常我们认为超过30个百分点KS值是可接受的，如果能超过50%那就属于优秀的水平了，KS值越大，越能体现建模的水平。

七、模型部署

如果一开始是如果你们的审批是线下后台的审批，如果直接引入评分系统，那么可能有大问题。

曾经我们就有这样的惨痛经验，上线了一个自认为很ok的模型，严重降低了进件团队的通过率，被渠道老总强烈投诉！

所以实施部署的关键是要高管、风险以及渠道团队的充分理解，在模型部署之前应该充分培训和宣导评分模型的战略意义，并且初期评分模型尽量要有可解释性，这样才会给人信服。

评分系统还应该评分结果转人工，在汽车金融业务中，有些经销商刚刚开始合作，他们故意用一些低质量的客户来进件，如果这时候的营销策略是维护经销商关系，以坏账换取信任，那么就要适当的开绿灯，等到线下团队和经销商的关系稳固，才慢慢收紧审批标准。

转人工的原因还有就是就是评分模型的数据源可能出现异常，那么就需要人工进行就调整。

作为产品设计者，预留后门是为了给自己留出生命线。

八、模型监控

模型监控的主要指标是客群稳定性分析和特征变量稳定性分析。

客群稳定性报告将近期实际申请人的信用得分按分数段（以月或季度为单位）与预测分布进行比较。

客群稳定性是发现潜在问题的一个很好的早期指标，该指标能够很好的反馈当前客群是否存在明细变化。

比如上图中红色的实际申请的客群，在0-4分的区间，实际发生的客群比预测的要高，说明实际的客群质量下降了。

如果客群分布变化，你就知道进入的客群也是不同的，比如这时候就可以找渠道方进行沟通，表明最近的渠道质量变化，客群质量变化，在模型能力不变的情况下，最终影响的是盈利效果。

特征变量稳定性分析是以时间维度与样本的特征分布进行比较。

上图中2022Q2季度收入5000以下的实际客户占比明细增大，这说明

客群以及经济环境，甚至是数据源本身出了问题，这时候就需要去寻找原因，否则模型最后的预测结果将不准确。

外部评分模型

大昌公司可以定制开发自内部的评分模型，但是如果如大顺这样的小消费金融公司，由于数据和开发资源都不够，又想把风险模型做好，只能引入外部的评分模型。

目前国内外部评分模型的公司也很多，比如同盾、百融、数美这样的机构，他们根据行业客户不同，推出了各种的行业评分

他们一般是根据和银行以及小贷公司合作，积累了大量的数据资源，加上自身的技术积累，向外输出评分模型也是符合市场需求。

根据行业可以区分汽车金融评分，线上小额贷款模型，信用卡、理财客户模型等。

根据行业可以区分反欺诈模型、客户信用评分模型，催收模型，收入预测模型，客户流失模型。

由于这些厂商接入的金融机构很多，通常他们是在头部打造一个样本，然后在向下推广，像大顺这样的腰部以下企业，完全可以信任他们的模型。

如果是大昌这样某部机构，作为第一个吃螃蟹的人，最好还是要对数据进行验证，并且评判数据的好坏。

使用外部数据评分系统的好处是这些评分会不定期的更新，因为他们接入的机构会越来越多，所以评分模型也在进化。

很多机构的做法是同时接入很多机构的评分模型，让不同的评分模型进行交叉验证，增强对客户的识别能力。

总结

一直以来由于小微企业自身规模小，经营风险大，缺乏担保物等问题，常常很难达到传统信贷机构的放贷标准。

在授权合规的前提下，评分模型可以收集银行数据、税务数据、企业行为数据和场景数据。

谁先建立了领先的企业评分模型，谁就能快速的抢占市场。

在个人信贷领域，领先的个人信用模型也是快速放款，自动审批，和降低风险水平的利器，是信贷领域真正的核心。

如果喜欢文章欢迎关注公众号

也欢迎加入信贷产品经理社群，目前已经有蚂蚁金服、微众银行、招行、平安、中银、马上消费，海尔，中原等消费金融产品经理加入。

申请方式：