1评分卡模型相关~知识点已更完~代码待更

最新推荐文章于 2022-08-03 14:20:29 发布

秀菜菜不菜

最新推荐文章于 2022-08-03 14:20:29 发布

阅读量159

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/weixin_40459998/article/details/118298377

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

训练阶段：对数据的训练，创建一个预测模型并对其进行微调。
模型生成：预测模型可以从这些数据背后找到答案，帮我们解决问题
预测阶段：通过测试集完成模型评估，从而了解模型在测试集中的有效性。

收集数据->准备数据：数据预处理->选择模型->训练->评估->超参数调整->预测

基础强化

最小二乘估计是最小化残差平方和（RSS）
在这里插入图片描述
lasso加入了L1惩罚项进行约束

岭回归加入了L2惩罚项
在这里插入图片描述

RFM指标

Recency：最近一次消费时间间隔
Frequency：消费频率，一段时间内的消费次数
Monetary：消费金额，一段时间内的消费金额
每个指标越大，用户价值越高
在这里插入图片描述

LDA线性判别分析

Linear Discriminant Analysis
目的是进行分类，思想是最大化类间方差与最小化类间方差，减少分类内部之间的差异，增加不同分类之间的差异。
很明显LD1是。
在这里插入图片描述

评分卡模型

常用金融风控手段之一。
风控：风险控制，采取各种措施和方法，减少风险发生的可能性、损失。
根据客户的各种属性和行为数据，利用信用评分模型，对客户的信用进行评分，从而决定是否给予授信，授信的额度和利率，减少在金融交易中存在的交易风险。

按照不同的业务阶段，可以划分为三种
贷前：申请评分卡 Application score card A卡
贷中：行为评分卡 Behavior score card B卡
贷后：催收评分卡 Collection score card C卡

用户评分 = 基准分+年龄评分+性别评分+婚姻状况评分+学历评分+月收入评分

数据获取
EDA 获取样本整体情况，进行直方图、箱盒图可视化
数据预处理，包括数据清洗、缺失值处理、异常值处理
变量筛选，筛选出对违约状态影响最显著的指标，主要有单变量特征和基于机器学习的方法
模型开发，包括变量分段、变量WOE变换和逻辑回归估计三部分
模型评估，评估模型的区分能力、预测能力、稳定性，并生成模型评估报告
生成评分卡（信用评分），根据逻辑回归的系数和WOE等确定信用评分方法，将Logistic模型转换为标准评分的形式
建立评分系统（布置上线），根据生成的评分卡，建立自动信用评分系统

WOE编码

Weight of Evidence 证据权重
是自变量的一种编码，常用于特征变换用来衡量自变量与因变量的相关性
在这里插入图片描述
B代表风险客户
G代表正常客户
对于某一变量某一分组的WOE，衡量了这组里面的好坏客户的占比与整体样本占比的差异。
差异越大，对风险区分越明显。

计算
对于连续型变量，分成N个bins
对于分类型变量保持类别group不变
计算每个bin or group中event和non-event的百分比

作用
可以将连续性变量转化为woe的分类变量
可以对相似的bin或group进行合并
注意
每个bin或者group不能过少，至少有5%的记录
不能过多，不稳定
bin或者group中全为0或者1的特例，用修正的woe

woe好处：
简化模型，使得模型变稳定，降低了过拟合的

IV information value

woe只考虑了风险区分的能力，没有考虑能分区的用户有多少。
IV衡量一个变量的风险区分能力，即衡量各变量对y的预测能力，用于筛选变量。
可以看作是WOE的加权和。
在这里插入图片描述
可参考：

步骤

对于连续性变量，进行分箱binning（等距、等频、自定义间隔），对于离散型变量，分箱太多，则进行分箱合并。
统计每个分箱里的好人数和坏人数
分别除总的好人数和坏人数，得到分箱内的边际好人占比和边际坏人比
计算每个分箱的WOE
检查每个分箱（除null）里WOE值是否满足单调性，若不满足，返回第一步
计算每个分箱内的IV，最终求和，得到最终的IV

Odds Ratio（OR)

Odds 胜率（优势），即事件发生与不发生的比例：odds=p / （1-p)
假设事件为客户逾期，Y=1，那么Age=Age1时的ODDS：
在这里插入图片描述
Odds Ratio为两个Odds的比值，比如Age1和Age2之间的Odds Ration(OR)

woe会呈现单调性。

缺失值处理

直接删除含有缺失值的样本
舍弃字段
采用简单规则进行补全：删除高频均值
预测进行补全：根据样本之间的相似性、相关关系填补缺失值

评估指标KS

Kolmogorov-Smirnov
常用于评估模型区分度，区分度越大，风险排序能力越强
在这里插入图片描述
ks曲线：计算每个score分箱区间累计坏帐户占比和累计好用户占比差的绝对值
ks值：在这些绝对值中取最大值，是衡量好坏客户分数距离的上限值
ks含义：如果排除掉一定比例的坏用户，会有多少比例的好用户被误杀掉
在这里插入图片描述

在这里插入图片描述

评估指标PSI

群体稳定性指标：Population Stability Index
反映了验证样本在各分数段的分布与建模样本分布的稳定性
稳定性是有参照的，需要两个分布，即实际分布与预期分布
PSI = SUM( (实际占比 - 预期占比）* ln(实际占比 / 预期占比) )
训练样本：预期分布
验证样本：实际分布
在这里插入图片描述

秀菜菜不菜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
1评分卡模型相关~知识点已更完~代码待更

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博
复制链接

扫一扫

专栏目录