评分卡模型学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


背景&原理&用途

评分卡模型是常用的金融风控手段之一

  • 风控,就是风险控制,我们采取各种措施和方法,减少风险发生的可能性,或风险发生时造成的损失。根据客户的各种属性和行为数据,利用信用评分模型,对客户的信用进行评分,从而决定是否给予授信,授信的额度和利率,减少在金融交易中存在的交易风险。
  • 信用评分技术是一种应用统计模型,其作用是对贷款申请人(信用卡申请人)做风险评估分值的方法。信用评分卡模型是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用。

信用评分卡的建立是以对大量数据的统计分析结果为基础,具有较高的准确性和可靠性。
评分卡并不是简单地 对应于某一种机器学习算法(虽然现在在评分卡应用场景中LogisticRegression是用的最多的算法),而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。


分类

根据客户的多个特征对每个客户进行打分,以期待对客户优质与否做一个评判按照不同的业务阶段,可以划分为三种:

  • 贷前:申请评分卡(Application score card),称为A卡
  • 贷中:行为评分卡(Behavior score card),称为B卡
  • 贷后:催收评分卡(Collection score card),称为C卡

三种评分卡根据使用时间不同,分别侧重贷前,贷中和贷后。


如何评分

评分卡模型开发步骤:

  • 1)数据读取:训练集数据、测试集数据
  • 2)探索性分析EDA:变量分布情况-中位数、均值等
  • 3)数据预处理:缺失值处理、异常值处理、特征相关性分析
  • 4)特征选择:变量筛选(统计学方法
  • 5)模型开发:变量分段、变量的WOE(证据权重)变换和逻辑回归估算三个部分
  • 6)模型评估:K-S指标、拟合度曲线(评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论)
  • 7)信用评分:好坏比、基础分值等创立标准评分卡(根据逻辑回归的系数和WOE等确定信用评分的方法,将LR模型转换为标准评分的形式)
  • 8)对测试集进行预测和转化为信用评分卡,建立评分系统

在这里插入图片描述
对于一些连续性特征首先要进行的就是分箱(离散化)处理。涉及几个概念。自动分箱就是让模型自动地选出最合适的离散化方式,用的就是对应IV(information Value)值的划分方式,而IV值需从WOE计算开始

分箱

  • 1.分箱——将连续变量离散化,或者将具有很多状态的离散变量合并成少状态

  • 2.分箱的优势:
    对异常值不敏感,如年龄300岁;
    降低模型过拟合风险;
    可以学习到样本的非线性信息?

  • 3.分箱方法:
    无监督:等宽、等频、聚类(k-means)
    有监督:卡方分箱法、单变量决策树算法(ID3、C4.5、CART)、IV最大化分箱法、best-ks分箱法

  • 4.卡方分箱算法:
    卡方分箱是自底向上的(即基于合并的)数据离散化方法。具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

WOE,IV计算

在这里插入图片描述
对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异

Weight of Evidence,证据权重,是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性

但woe只考虑了风险区分的能力,没有考虑能区分的用户有多少。引入IV值,用IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力,用于筛选变量
在这里插入图片描述

IV的计算,可以认为是WOE的加权和
IV值的相关描述如下所示,值越大代表特征和目标的相关性越强

Odds Ratio(OR)

Odds,指胜率(优势),即事件发生与不发生的比例

在这里插入图片描述
odds、OR和RR的计算公式和实际意义

基于评分卡的风控模型开发

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值