评分卡建模的流程以及细节剖析

评分卡建模的流程以及细节剖析

created by hcy 20200620,记录一下自己对评分卡建模的细节梳理

评分卡的优势以及缺点

优点:可解释性很强、鲁棒性较好,适用于数据量较小的情况
缺点:数据量大的情况下分箱速度很慢

评分卡的建模流程

1. 模型设计,target是如何定义的
2. 剔除相关性强的变量,保留其中的一部分
这里记录一下相关系数、协方差的概念
协方差:在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
COV(X,Y) = E[(X-E(X)(Y-E(Y)]
协方差并无消除两个变量间的量纲差别
相关系数 p=COV(X,Y) / D(X)D(Y)
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差
翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。
1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

相关系数、协方差详解(如有涉及侵权,烦请联系我删除)

3、剔除psi高的变量
psi可以反应一个变量的稳定程度,如果psi较高的变量入模,模型上线后可能效果波动会比较大,因此需要剔除
psi公式 psi = SUM[(Ac - ex) * ln(Ac / ex)]
4、根据iv值进行筛选变量,iv值小的变量进行剔除,最终保留的变量在15个左右
5、手动对分箱进行调整
6、 保存模型

记录几个细节点:

woe的计算公式:WOE=ln(好客户占比/坏客户占比)×100%
IV = SUM[(py_i - pn_i)woe_i]

分箱的几种方式
常用的无监督分箱方法有等频分箱,等距分箱和聚类分箱。有监督分箱主要有best-ks分箱和卡方分箱。基于我的项目中重点应用了卡方分箱,所以这里重点对卡方分箱做些总结。

基于卡方值分箱的过程
基于BEST-KS分享的过程

Logistic的结果概率值转换为标准评分卡

以上是近几天review项目总结的一些细节笔记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值