机器篇——决策树(四) 细说 CART 算法

返回主目录

返回决策树目录

上一章:机器篇——决策树(三)

下一章:机器篇——决策树(五)

 

本小节,细说 CART 算法,下一小节开始细说 评估指标的相关曲线(ROC、KS、PR)。

 

二. 算法细说

        5. CART 算法

            (1). CART 分类树算法的最优特征选择方法

                       ①. 在 ID3 算法中使用了信息增益来选择特征,信息增益大的优先选择。在 C4.5算法中,采用了信息增益率来选择特征以减少信息增益容易选择特征值多的特征问题。但是,无论是 ID3,还是 C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。

                       ②. CART 分类树算法使用基尼系数来代替信息增益率,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(率)是相反的。

                       ③. 具体的,在分类问题中,假设有 \large k 个类别,第 \large k 个类别的概率为 \large p_k,则基尼系数表达式为:

                                   \LARGE Gini(p) = \sum_{k = 1}^{k} p_{k}(1 - p_{k}) = 1 - \sum_{k = 1}^{k}p_{k}^{2}

                            如果是二分类问题,计算就更加简单了如果属于第一个样本输出的概率为 \large p,则基尼系数的表达式为:

                                   \LARGE Gini(p) = 2p(1 - p)

                            对于给定的样本 \large D,假设有 \large k 个类别,第 \large k 个类别的数量为 \large C_{k},则样本 \large D 的基尼系数表达式为:

                                   \LARGE Gini(p) = 1 - \sum_{k = 1}^{k}(\tfrac{|C_{k}|}{|D|})^2

                            特别的,对于样本 \large D,如果根据特征 \large A 的某个值 \large a,把 \large D 分成 \large D_{1} 和 \large D_{2} 两类别,则在特征 \large A 的条件下,\large D 的基尼系数表达式为:

                                   \LARGE Gini(D, A) = \tfrac{|D_{1}|}{|D|} Gini(D_{1}) + \tfrac{|D_{2}|}{|D|} Gini(D_{2})

                       ④. 基尼系数与 Gain 的表达式:

                          a. 分类树:Gini值

                            (a). Gini 值的计算公式;

                                   \LARGE Gini = 1 - \sum_{i \in I}p_{i}^2

                            (b). 节点越不纯,Gini 值越大,效果越差;越纯,Gini 值越小,效果越好。以二分类为例,如果节点的所有数据只有一个类别,则:

                                   \LARGE Gini = 1 - \sum_{i \in I} p_{i}^2 = 0

                            (c). 如果两类数量相同,则:

                                   \LARGE Gini = 1 - \sum_{i \in I} p_{i}^2 = \tfrac{1}{2}

                            (d). Gini 值的计算

                                   \LARGE Gain = \sum_{i \in I} p_{i} Gini

                          b. 回归树:回归方差

                            (a). 回归方差计算公式:

                                   \LARGE \sigma = \sqrt{\sum_{i \in I}(x_{i} - \mu )^2} = \sqrt{\sum_{i \in I} x_{i}^2 - I \mu^2}

                            (b). 如果两类数量相同,则方差越大,表示该节点的数据越分散,预测的效果就越差。如果一个节点的所有数据都相同,那么方差就为零。此时可以很肯定的认为该节点的输出值。如果节点的数据相差很大,那么输出的值有很大的可能与实际值相差较大。回归方差越小,效果越好。

                            (c). \large Gain 值的计算

                                   \LARGE Gain = \sum_{i \in I} \sigma_{i}

                       ⑤. 基尼系数可以做为熵模型的一个近似替代。

                             而 CART 分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART 分类树算法每次仅仅对某个特征的值进行二分,而

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值