评分卡模型-理论

评分卡模型流程 变量分群/分箱通常是为了让变量的预测力最强名义变量降低基数 类似决策树的一种算法 连续变量的分箱 在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。要将logistic模型转换为标准评分卡的形式,这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最...
摘要由CSDN通过智能技术生成

评分卡模型流程

评分卡模型
这里写图片描述


变量分群/分箱

通常是为了让变量的预测力最强


名义变量降低基数
这里写图片描述
这里写图片描述
类似决策树的一种算法
这里写图片描述
这里写图片描述


连续变量的分箱

在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。要将logistic模型转换为标准评分卡的形式,这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

其中等距分段(Equval length intervals)是指分段的区间是一致的,比如年龄以十年作为一个分段;等深分段(Equal frequency intervals)是先确定分段数量,然后令每个分段中数据数量大致相等;最优分段(Optimal Binning)又叫监督离散化(supervised discretizaion),使用递归划分(Recursive Partitioning)将连续变量分为分段,背后是一种基于条件推断查找较佳分组的算法(Conditional Inference Tree)。


抽样和权重计算

  1. 随机抽样

  2. 均衡抽样

    这里写图片描述
    这里写图片描述

这里写图片描述
这里写图片描述

  1. 分层抽样


logistic回归

  • 基本公式

这里写图片描述
这里写图片描述
将y=1的概率记为p
这里写图片描述

  • 似然方程拟合回归模型
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述

信息矩阵
这里写图片描述
这里写图片描述
这里写图片描述

模型的方差和协方差
这里写图片描述
标准误
这里写图片描述
沃尔德卡方统计量:
这里写图片描述
置信区间
这里写图片描述


  • 模型拟合的统计量

  • 似然函数值的统计量,评估自变量引入模型的效应及aic,sc,r
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述
    这里写图片描述

  • hosmer-lemeshow检验:
    这里写图片描述

  • 全局零假设检验

    1. 似然比统计量
      这里写图片描述

    2. 分数统计量
      这里写图片描述

    3. 沃尔德统计量能
      这里写图片描述

关于概率比解读
这里写图片描述
这里写图片描述



证据权重WOE

证据权重(Weight of Evidence,WOE)转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量,只是一些变量不应该被纳入模型,这或者是因为它们不能增加模型值,或者是因为与其模型相关系数有关的误差较大,其实建立标准信用评分卡也可以不采用WOE转换。这种情况下,Logistic回归模型需要处理更大数量的自变量。尽管这样会增加建模程序的复杂性,但最终得到的评分卡都是一样的。

WOE()=ln[(违约/总违约)/(正常/总正常)]。
用WOE(x)替换变量x,

如果一个已经经过WOE转换的自变量对logistic回归模型进行拟合,则该变量对应的模型参数正好是1.0

证据权重和标准评分卡

名义变量:
这里写图片描述

连续变量的WOE:
将变量分箱
这里写图片描述

若WOE值和分段好的序量表之间的线性关系或者单调关系不存在,有两种可能的解释:
这里写图片描述



变量选择的方法

这里写图片描述

  1. 使用所有变量 selection=none 将所有变量啊如模型,常用与初始探索性模型拟合
  2. 正向选择 selection=forward 从几句相对模型拟合,从没有纳入模型的变量选择卡方统计量最大,符合条件的变量,进入的变量不会被移除
  3. 逆向选择 selection=backward 移除wa l d卡方统计量的p值最大的变量
  4. 逐步选择
    这里写图片描述
  5. 这里写图片描述

sas参数:
这里写图片描述

逐步变量选择
优点:
这里写图片描述

SLE = p-值 SLS= p-值
分别设定允许变量进入和保留在模型中的显著性水平

这里写图片描述

强制变量进入模型
这里写图片描述

控制变量的优先级顺序
这里写图片描述



模型评估

提升图和洛伦兹曲线
这里写图片描述
这里写图片描述
这里写图片描述

基尼系数
这里写图片描述
这里写图片描述

KS曲线
将总体10等分按违约概率降序排列,计算每一份违约与正常的百分比的累积分布,绘制两者的差异
这里写图片描述

ROC曲线
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

模型整体评估
这里写图片描述



评分卡刻度与实施

评分卡的刻度

估计违约的概率为p,估计得正常的概率即为1-p,这两个事件互斥且互为补集
违约与正常的比率:
odds=p

  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值