特征离散化（二）之 Chi2分箱

最新推荐文章于 2023-10-25 09:01:48 发布

SkullSky

最新推荐文章于 2023-10-25 09:01:48 发布

阅读量2.3k

点赞数 4

分类专栏：机器学习文章标签：离散化离散特征 Chi2 卡方 python

本文链接：https://blog.csdn.net/SkullSky/article/details/100898862

版权

本文详细介绍了特征离散化中的Chi2分箱方法，作为ChiMerge分箱的优化，它通过不一致性检验减少对显著性水平的依赖。内容包括Chi2分箱的两个阶段、不一致性衡量的计算以及显著性水平的衰减，并提供了相关代码实现。

摘要由CSDN通过智能技术生成

特征离散化（二）之 Chi2分箱

话接上回，基于ChiMerge的卡方分箱可大致分为四个部分：1. 排序（连续型根据值大小排序，离散型根据给定的标准(如正例样本占比）排序）；2. 自底向上计算相邻两项的卡方值（这一部分的计算尤其需要注意）；3. 合并卡方值最小的两项；4. 重复步骤2&3直至满足给定的停止条件。如果有不清楚的地方，可以参见上篇博客。
ChiMerge分箱有一个致命的问题是：迭代结束的卡方阈值 $\delta$ 取决于显著性水平（sigLevel)，该值由用户指定。对于不同的场景，该如何确定一个合适的sigLevel呢？基于此，Chi2分箱横空出世。

1. 卡方分箱之 Chi2

Chi2分箱与ChiMerge分箱都是基于卡方值的自底向上分箱方法。Chi2分箱是对ChiMerge分箱的一种优化，不同于ChiMerge，通过引入不一致性检验（原文对应consistency check)，Chi2的分箱效果不严重依赖于用户指定的卡方阈值。其伪码如下：
chi2分箱伪码
从伪码可知，Chi2分箱可分为两个阶段：第一个阶段，相当于在ChiMerge分箱（图中红色框框）的外层增加了一层循环。逐步降低显著性水平（sigLevel)，直至数据的不一致性度量小于指定阈值 $\delta$ ，从而提高卡方阈值。第二个阶段，在第一阶段确定的sigLevel基础上，进行更细致的划分。
注意*：这里的讨论都只考虑针对单个变量的分箱。

这里面有三个关键的地方论文里讲的不是很清楚：

不一致性（Inconsistency Rate）如何计算。modified_chi2.pdf
卡方值计算（坑最深的地方）。这个上篇博客已经介绍了，此处不再赘述。
显著性水平（Significance Level)如何衰减。

下面我们将具体讨论这三个问题。

2. 不一致性衡量

根据论文中的解释，不一致性的度量标准如下：
在这里插入图片描述
相应的代码如下：

def calc_inconsistency_rate(count, group):
    """
    计算分组的不一致性，参考论文《Feature Selection via Discretizations》
    :param count: DataFrame 待分箱变量的分布统计
    :param group: list 分组信息
    :return: float 该分组的不一致性
    """
    inconsistency_rate = 0.0
    for intv in group:
        count_intv = count

最低0.47元/天解锁文章

SkullSky

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
特征离散化（二）之 Chi2分箱

特征离散化之卡方分箱（二）离散特征在数据挖掘的过程中具有重要作用，因此特征离散化是构建特征工程的一个很常见、也很重要的环节。最近做项目需要用到卡方分箱实现特征的离散化，发现这么经典的功能python竟然没有相关的封装库。找了许多资料，老感觉差了一点，看的迷迷糊糊的。最后实在不得已，只能翻出原论文 Chi2: Feature Selection and Discretization o...
复制链接

扫一扫