降低基数,连续变量分段

数据准备非常重要:
1.从不同的渠道收集数据;
2.清理数据中意外错误或被认为是极端值的取值;
3.生成衍生的变量(feature)。

在数据处理过程,需要进行的操作:

当名义变量的取值大于12个,考虑降低基数:
1>将相同含义的变量合并;
2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法,对于有12个类别的某个feature,首先把所有的看成一个分组,然后找出最优的二元分割方法,具体见《信用风险评分卡研究》的P92。

在这里插入图片描述
还有其他的一些降低基数的指标。

在这里插入图片描述

连续变量的分段:
连续变量必须分段,为了方便构建打分卡,两种方法:等距分段和最优分段。
等距分段是指分段的区间是一样的,比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化,相当于名义变量降低基数的最优分群。
如下是采用决策树的方法,先规定最小分段的规模,然后进行初始的等距分段(取值顺序保持原始变量的顺序),然后利用决策树二分法,进行分组,知道组数达到设定的分组数量。
在这里插入图片描述

抽样和权重计算
数据库的数据量大,采取抽的方法获取数据,用户信用评分卡的开发。
有3中常见的抽样方法:
1>随机抽样;
2>均衡(对称)抽样;
3>分层抽样。
1.随机抽样
从总体中随机抽取两个不相交的样本集,一个用户训练,一个用户验证。
2.均衡抽样
从总体中抽样的两个样本集,每个样本集中的违约比率与初始总体不同。
————————————————
版权声明:本文为CSDN博主「心雨心辰」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xidianliutingting/article/details/53260363

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值