离散化/分箱/分组(Discretization / binning / Interactive grouping)

本文介绍了离散化(Discretization)技术,包括监督和无监督两种方式。在监督离散化中,利用卡方检验、信息增益等准则寻找最佳分组,例如通过熵和Pearson卡方统计量。无监督离散化则不考虑类别信息,采用等宽、等频等方法进行分箱。此外,还提到了人工定区间的方式以及数据平滑处理的重要性。参考链接提供了更多相关资源。
摘要由CSDN通过智能技术生成

1、监督离散化(supervised discretization)

考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。

 

(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。

准则:

(a)熵;

(b)目标和分支节点使用Pearson卡方统计量的p值;

 

(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。

(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。

  • 0
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值