1评分卡模型相关~知识点已更完~代码待更

训练阶段:对数据的训练,创建一个预测模型并对其进行微调。
模型生成:预测模型可以从这些数据背后找到答案,帮我们解决问题
预测阶段:通过测试集完成模型评估,从而了解模型在测试集中的有效性。

收集数据->准备数据:数据预处理->选择模型->训练->评估->超参数调整->预测

基础强化

最小二乘估计是最小化残差平方和(RSS)
在这里插入图片描述
lasso加入了L1惩罚项进行约束
在这里插入图片描述

岭回归加入了L2惩罚项
在这里插入图片描述

RFM指标

Recency:最近一次消费时间间隔
Frequency:消费频率,一段时间内的消费次数
Monetary:消费金额,一段时间内的消费金额
每个指标越大,用户价值越高
在这里插入图片描述
在这里插入图片描述

LDA线性判别分析

Linear Discriminant Analysis
目的是进行分类,思想是最大化类间方差与最小化类间方差,减少分类内部之间的差异,增加不同分类之间的差异。
很明显LD1是。
在这里插入图片描述

评分卡模型

常用金融风控手段之一。
风控:风险控制,采取各种措施和方法,减少风险发生的可能性、损失。
根据客户的各种属性和行为数据,利用信用评分模型,对客户的信用进行评分,从而决定是否给予授信,授信的额度和利率,减少在金融交易中存在的交易风险。

按照不同的业务阶段,可以划分为三种
贷前:申请评分卡 Application score card A卡
贷中:行为评分卡 Behavior score card B卡
贷后:催收评分卡 Collection score card C卡

用户评分 = 基准分+年龄评分+性别评分+婚姻状况评分+学历评分+月收入评分

  1. 数据获取
  2. EDA 获取样本整体情况,进行直方图、箱盒图可视化
  3. 数据预处理,包括数据清洗、缺失值处理、异常值处理
  4. 变量筛选,筛选出对违约状态影响最显著的指标,主要有单变量特征和基于机器学习的方法
  5. 模型开发,包括变量分段、变量WOE变换和逻辑回归估计三部分
  6. 模型评估,评估模型的区分能力、预测能力、稳定性,并生成模型评估报告
  7. 生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分方法,将Logistic模型转换为标准评分的形式
  8. 建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统
    在这里插入图片描述
WOE编码

Weight of Evidence 证据权重
是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性
在这里插入图片描述
B代表风险客户
G代表正常客户
对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本占比的差异。
差异越大,对风险区分越明显。

计算
对于连续型变量,分成N个bins
对于分类型变量保持类别group不变
计算每个bin or group中event和non-event的百分比
在这里插入图片描述

作用
可以将连续性变量转化为woe的分类变量
可以对相似的bin或group进行合并
注意
每个bin或者group不能过少,至少有5%的记录
不能过多,不稳定
bin或者group中全为0或者1的特例,用修正的woe
在这里插入图片描述

woe好处:
简化模型,使得模型变稳定,降低了过拟合的

IV information value

woe只考虑了风险区分的能力,没有考虑能分区的用户有多少。
IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力,用于筛选变量。
可以看作是WOE的加权和。
在这里插入图片描述在这里插入图片描述
可参考:
在这里插入图片描述
步骤

  1. 对于连续性变量,进行分箱binning(等距、等频、自定义间隔),对于离散型变量,分箱太多,则进行分箱合并。

  2. 统计每个分箱里的好人数和坏人数

  3. 分别除总的好人数和坏人数,得到分箱内的边际好人占比和边际坏人比

  4. 计算每个分箱的WOE在这里插入图片描述

  5. 检查每个分箱(除null)里WOE值是否满足单调性,若不满足,返回第一步

  6. 计算每个分箱内的IV,最终求和,得到最终的IV

Odds Ratio(OR)

Odds 胜率(优势),即事件发生与不发生的比例:odds=p / (1-p)
假设事件为客户逾期,Y=1,那么Age=Age1时的ODDS:
在这里插入图片描述
Odds Ratio为两个Odds的比值,比如Age1和Age2之间的Odds Ration(OR)
在这里插入图片描述
woe会呈现单调性。

缺失值处理

直接删除含有缺失值的样本
舍弃字段
采用简单规则进行补全:删除 高频 均值
预测进行补全:根据样本之间的相似性、相关关系填补缺失值

评估指标KS

Kolmogorov-Smirnov
常用于评估模型区分度,区分度越大,风险排序能力越强
在这里插入图片描述
ks曲线:计算每个score分箱区间累计坏帐户占比和累计好用户占比差的绝对值
ks值:在这些绝对值中取最大值,是衡量好坏客户分数距离的上限值
ks含义:如果排除掉一定比例的坏用户,会有多少比例的好用户被误杀掉
在这里插入图片描述

在这里插入图片描述

评估指标PSI

群体稳定性指标:Population Stability Index
反映了验证样本在各分数段的分布与建模样本分布的稳定性
稳定性是有参照的,需要两个分布,即实际分布与预期分布
PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
训练样本:预期分布
验证样本:实际分布
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值