python最优分箱计算iv值_信贷风控小知识——(5)分箱与变量分析

本文介绍了在风控建模中,数值型和类别型特征的分箱处理方法,如卡方分箱和Best-KS分箱,以及如何通过IV值评估特征重要性。分箱旨在提高模型稳定性,减少信息丢失,并处理异常值和缺失值。同时,文章讨论了单变量和多变量分析在特征筛选中的作用,以构建更优的变量体系。
摘要由CSDN通过智能技术生成

风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。

最终,对进入模型的特征还要做单变量与多变量分析。

1、分箱简述

1.1分箱定义

(1)对于数值型变量,将数值范围分为几个有限的分段

(2)对于类别型变量,如果取值过多,将其合并为较少的几个分段

1.2分箱原因

(1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;

(2)对于类别型变量,当取值过多时,如果不分箱会发生变量膨胀,例如,对省份编码,独热编码会有31个变量,dummy也会有30个变量

1.3分箱要求

(1)取值较少的类别型变量不需要分箱

(2)分箱结果需要有序性

(3)分箱的平衡性:占比最小的箱数据不低于5%

(4)分箱的单调性:在要求严格的情况下,没想的坏样本率与箱呈单调关系;当非单调时,需要与前箱和后箱合并,选择前或后有两种方案:一种选择合并后卡方值小的方案;二是选择合并后更加均匀的方法,均匀程度的衡量方式:

箱的个数不能太多,一般5-7个;

(5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。

1.4分箱的优缺点

优点:

(1)比较稳定,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值