Class Confidence Proportion不平衡数据集的决策树算法
Class Confidence Proportion算法是一种基于C4.5算法改进而来、处理不平衡数据集的决策树划分算法。由悉尼大学的LiuWei博士在2010年发表在SIAM,《A Robust Decision Tree Algorithm for Imbalanced Data Sets》。
其基本思想是通过提出一种改进的置信度Class Confidence代替原有的置信度,将数据集中的各属性值的数量转换成各属性值所占比例,从而消除了数据不平衡对属性划分带来的影响。
算法简介
对决策树也不了解的同学可以点击这里从零开始的机器学习生活—决策树
C4.5算法
CCP算法是一种基于C4.5的改进算法,C4.5算法使用增益率选择最优划分属性,增益率的定义如下:
其中IV(a)属性a的固有值,属性a的可能取值数量越大,IV(a)越大,IV(a)的表达式如下: