【汇】连续变量的常用分箱测试方法：等频、等距、best_ks、卡方

最新推荐文章于 2023-07-18 20:22:13 发布

Just Jump

最新推荐文章于 2023-07-18 20:22:13 发布

阅读量4.5k

点赞数 2

分类专栏：特征工程机器学习文章标签：特征离散化分箱测试

原文链接：https://www.cnblogs.com/wzdLY/p/9649101.html

版权

81 篇文章 9 订阅

订阅专栏

22 篇文章 2 订阅

订阅专栏

分箱的基评估标准是依靠WOE与IV值，常用的方法是等频、等距、best_ks、卡方。

决策树里对于连续值采用信息熵、信息增益率、方差、基尼系数等来进行拆分的选择。

它们本质上是一样的，都是为了寻找最佳的拆分方式，具有最好的表达能力。只不过一个不是用模型能力表现，一个是用模型能力表现。

对连续变量从小到大排序，使用频次百分比qcut分割的方式对连续变量进行分箱，使得每个区间具有数量相同的样本量。

对连续变量从小到大排序，将取值区间等分成N等份，样本根据其取值落到对应的分箱中。

自底向上合并数据的离散化方法。依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

基本思想: 如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

WOE的全称是“Weight of Evidence”，即证据权重，WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分箱。分箱后，对于第i组，WOE的计算公式如下：

yi是这个分组中响应客户（即取值为1）的数量，yT是全部样本中所有响应客户（即取值为1）的数量

ni是这个分组中未响应客户（即取值为0）的数量，nT是全部样本中所有未响应客户（即取值为0）的数量

IV的全称是Information Value，用来衡量自变量的预测能力

对于分组i的IV值:

计算整个变量的IV值，n为变量分组个数:

KS(Kolmogorov-Smirnov)用于模型风险区分能力评估，指标衡量的是好坏样本累计部分之间的差距。KS值越大，表示该变量越能将正、负样本的区分开。一般KS>0.2即表示特征有较好的准确率。
KS的计算方式：

关注

专栏目录