python最优分箱计算iv值_信贷风控小知识——(5)分箱与变量分析

风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。

最终,对进入模型的特征还要做单变量与多变量分析。

1、分箱简述

1.1分箱定义

(1)对于数值型变量,将数值范围分为几个有限的分段

(2)对于类别型变量,如果取值过多,将其合并为较少的几个分段

1.2分箱原因

(1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;

(2)对于类别型变量,当取值过多时,如果不分箱会发生变量膨胀,例如,对省份编码,独热编码会有31个变量,dummy也会有30个变量

1.3分箱要求

(1)取值较少的类别型变量不需要分箱

(2)分箱结果需要有序性

(3)分箱的平衡性:占比最小的箱数据不低于5%

(4)分箱的单调性:在要求严格的情况下,没想的坏样本率与箱呈单调关系;当非单调时,需要与前箱和后箱合并,选择前或后有两种方案:一种选择合并后卡方值小的方案;二是选择合并后更加均匀的方法,均匀程度的衡量方式:

箱的个数不能太多,一般5-7个;

(5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。

1.4分箱的优缺点

优点:

(1)比较稳定,

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值