离散化/分箱/分组(Discretization / binning / Interactive grouping)

DataAnalysis 专栏收录该内容
35 篇文章 0 订阅

1、监督离散化(supervised discretization)

考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。

 

(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。

准则:

(a)熵;

(b)目标和分支节点使用Pearson卡方统计量的p值;

 

(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。

(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。


 

2、无监督离散化(unsupervised discretization)

不考虑类别信息(已知X的值而未知Y的值)。分箱(binning/split bin)方法如:等宽、等频、聚类。

(1)等宽/等距:将数值属性的值域[ , ]等分为K个区间,即 (Xmax - X min) / K。前提:数值大概服从均匀分布。

(2)等频/等深/分位数(equi-depth):和等宽类似,但它不是要求每个区间宽度一样,而是要求落在每个区间的对象数目相等。即共有M个点,每个区域含有M / K 个点。

分箱后再作数据平滑处理(smoothing)。

e.g.

 

3、人工定区间,按照需要而定。

 

Structure:

* 参考:
http://wenku.baidu.com/link?url=W-S_CqJNOb_PFH2w57Y7jhqovwFUnPrcwMDH5qgbQm6SebyldBq5z4n1yZtu7L6B_7F_DbkEIBPREGTk9LxgwrzfNYZHJBuYR0PVM7oyzLe

http://wenku.baidu.com/link?url=9j6zT4pcq6DxuT-D3LeOKninzUBUhlDxfvVaGxNoPwqsnmOQTydiSPj39LqJhQFAyc0b4FSdCmhZrXS0x4wZwo6N0svQRZxHgJ0pgtcL7QO

http://blog.revolutionanalytics.com/2015/03/r-package-smbinning-optimal-binning-for-scoring-modeling.html

  • 0
    点赞
  • 2
    评论
  • 1
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

打赏
文章很值,打赏犒劳作者一下
相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页

打赏

textboy

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值