上一章:机器篇——决策树(三)
下一章:机器篇——决策树(五)
本小节,细说 CART 算法,下一小节开始细说 评估指标的相关曲线(ROC、KS、PR)。
二. 算法细说
5. CART 算法
(1). CART 分类树算法的最优特征选择方法
①. 在 ID3 算法中使用了信息增益来选择特征,信息增益大的优先选择。在 C4.5算法中,采用了信息增益率来选择特征以减少信息增益容易选择特征值多的特征问题。但是,无论是 ID3,还是 C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。
②. CART 分类树算法使用基尼系数来代替信息增益率,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(率)是相反的。
③. 具体的,在分类问题中,假设有 个类别,第 个类别的概率为 ,则基尼系数表达式为:
如果是二分类问题,计算就更加简单了如果属于第一个样本输出的概率为 ,则基尼系数的表达式为:
对于给定的样本 ,假设有 个类别,第 个类别的数量为 ,则样本 的基尼系数表达式为:
特别的,对于样本 ,如果根据特征 的某个值 ,把 分成 和 两类别,则在特征 的条件下, 的基尼系数表达式为:
④. 基尼系数与 Gain 的表达式:
a. 分类树:Gini值
(a). Gini 值的计算公式;
(b). 节点越不纯,Gini 值越大,效果越差;越纯,Gini 值越小,效果越好。以二分类为例,如果节点的所有数据只有一个类别,则:
(c). 如果两类数量相同,则:
(d). Gini 值的计算
b. 回归树:回归方差
(a). 回归方差计算公式:
(b). 如果两类数量相同,则方差越大,表示该节点的数据越分散,预测的效果就越差。如果一个节点的所有数据都相同,那么方差就为零。此时可以很肯定的认为该节点的输出值。如果节点的数据相差很大,那么输出的值有很大的可能与实际值相差较大。回归方差越小,效果越好。
(c). 值的计算
⑤. 基尼系数可以做为熵模型的一个近似替代。
而 CART 分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART 分类树算法每次仅仅对某个特征的值进行二分,而