评分卡建模的流程以及细节剖析
created by hcy 20200620,记录一下自己对评分卡建模的细节梳理
评分卡的优势以及缺点
优点:可解释性很强、鲁棒性较好,适用于数据量较小的情况
缺点:数据量大的情况下分箱速度很慢
评分卡的建模流程
1. 模型设计,target是如何定义的
2. 剔除相关性强的变量,保留其中的一部分
这里记录一下相关系数、协方差的概念
协方差:在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
COV(X,Y) = E[(X-E(X)(Y-E(Y)]
协方差并无消除两个变量间的量纲差别
相关系数 p=COV(X,Y) / D(X)D(Y)
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差
翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。
1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
相关系数、协方差详解(如有涉及侵权,烦请联系我删除)
3、剔除psi高的变量
psi可以反应一个变量的稳定程度,如果psi较高的变量入模,模型上线后可能效果波动会比较大,因此需要剔除
psi公式 psi = SUM[(Ac - ex) * ln(Ac / ex)]
4、根据iv值进行筛选变量,iv值小的变量进行剔除,最终保留的变量在15个左右
5、手动对分箱进行调整
6、 保存模型
记录几个细节点:
woe的计算公式:WOE=ln(好客户占比/坏客户占比)×100%
IV = SUM[(py_i - pn_i)woe_i]
分箱的几种方式
常用的无监督分箱方法有等频分箱,等距分箱和聚类分箱。有监督分箱主要有best-ks分箱和卡方分箱。基于我的项目中重点应用了卡方分箱,所以这里重点对卡方分箱做些总结。