数据分箱是下列情形下常用的方法:
1.某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音。
2.有些数值自变量有大量不重复的取值,对于使用<、>、=等基本操作符的算法(如决策树)而言,如果能减少这些不重复取值的个数,就能提高算法的速度。
3.有些算法只能使用分类自变量,需要把数值变量离散化。
数据被归入几个分箱之后,可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数值,也可以把每个分箱作为离散化后的一个类别。例如,某个自变量的观测值为1,2.1,2.5,3.4,4,5.6,7,7.4,8.2.假设将它们分为三个分箱,(1,2.1,2.5),(3.4,4,5.6),(7,7.4,8.2),那么使用分箱均值替代后所得值为(1.87,1.87,1.87),(4.33,4.33,4.33),(7.53,7.53,7.53),使用分箱中位数替代后所得值为(2.1,2.1,2.1),(4,4,4),(7.4,7.4,7.4),使用边界值替代后所得值为(1,2.5,2.5),(3.4,3.4,5.6),(7,7,8.2)(每个观测值由其所属分箱的两个边界值中较近的值替代)。
IV 值经验规则:
IV < 0.02 :不具有预测能力
0.02<= IV < 0.1 :预测能力很弱
0.1<= IV < 0.3 :中等程度预测能力
IV >= 0.3 :预测能力很强
IV 值法只适用于分类变量,可以通过调整分类阈值来提高IV值。使用IV值进行变量筛选时,可以计算出所有的分类变量的IV值,然后选择 IV值大于 0.1 或IV值最高的前 10% 变量。