1、监督离散化(supervised discretization)
考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。
(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。
准则:
(a)熵;
(b)目标和分支节点使用Pearson卡方统计量的p值;
(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。
(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。