机器篇——决策树(四) 细说 CART 算法

万道一

于 2020-01-04 14:48:49 发布

阅读量997

点赞数

分类专栏： AI章文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38299170/article/details/103759784

版权

本文深入探讨CART算法，包括其选择最优特征的基尼系数方法、处理连续和离散特征的方式、建立分类和回归树的具体流程，并介绍了CART剪枝策略以提高泛化能力。

摘要由CSDN通过智能技术生成

返回主目录

返回决策树目录

上一章：机器篇——决策树(三)

下一章：机器篇——决策树(五)

本小节，细说 CART 算法，下一小节开始细说评估指标的相关曲线(ROC、KS、PR)。

二. 算法细说

5. CART 算法

(1). CART 分类树算法的最优特征选择方法

①. 在 ID3 算法中使用了信息增益来选择特征，信息增益大的优先选择。在 C4.5算法中，采用了信息增益率来选择特征以减少信息增益容易选择特征值多的特征问题。但是，无论是 ID3，还是 C4.5，都是基于信息论的熵模型的，这里面会涉及大量的对数运算。

②. CART 分类树算法使用基尼系数来代替信息增益率，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(率)是相反的。

③. 具体的，在分类问题中，假设有 $\large k$ 个类别，第 $\large k$ 个类别的概率为 $\large p_k$ ，则基尼系数表达式为：

$\LARGE Gini(p) = \sum_{k = 1}^{k} p_{k}(1 - p_{k}) = 1 - \sum_{k = 1}^{k}p_{k}^{2}$

如果是二分类问题，计算就更加简单了如果属于第一个样本输出的概率为 $\large p$ ，则基尼系数的表达式为：

$\LARGE Gini(p) = 2p(1 - p)$

对于给定的样本 $\large D$ ，假设有 $\large k$ 个类别，第 $\large k$ 个类别的数量为 $\large C_{k}$ ，则样本 $\large D$ 的基尼系数表达式为：

$\LARGE Gini(p) = 1 - \sum_{k = 1}^{k}(\tfrac{|C_{k}|}{|D|})^2$

特别的，对于样本 $\large D$ ，如果根据特征 $\large A$ 的某个值 $\large a$ ，把 $\large D$ 分成 $\large D_{1}$ 和 $\large D_{2}$ 两类别，则在特征 $\large A$ 的条件下， $\large D$ 的基尼系数表达式为：

$\LARGE Gini(D, A) = \tfrac{|D_{1}|}{|D|} Gini(D_{1}) + \tfrac{|D_{2}|}{|D|} Gini(D_{2})$

④. 基尼系数与 Gain 的表达式：

a. 分类树：Gini值

(a). Gini 值的计算公式；

$\LARGE Gini = 1 - \sum_{i \in I}p_{i}^2$

(b). 节点越不纯，Gini 值越大，效果越差；越纯，Gini 值越小，效果越好。以二分类为例，如果节点的所有数据只有一个类别，则：

$\LARGE Gini = 1 - \sum_{i \in I} p_{i}^2 = 0$

(c). 如果两类数量相同，则：

$\LARGE Gini = 1 - \sum_{i \in I} p_{i}^2 = \tfrac{1}{2}$

(d). Gini 值的计算

$\LARGE Gain = \sum_{i \in I} p_{i} Gini$

b. 回归树：回归方差

(a). 回归方差计算公式：

$\LARGE \sigma = \sqrt{\sum_{i \in I}(x_{i} - \mu )^2} = \sqrt{\sum_{i \in I} x_{i}^2 - I \mu^2}$

(b). 如果两类数量相同，则方差越大，表示该节点的数据越分散，预测的效果就越差。如果一个节点的所有数据都相同，那么方差就为零。此时可以很肯定的认为该节点的输出值。如果节点的数据相差很大，那么输出的值有很大的可能与实际值相差较大。回归方差越小，效果越好。

(c). $\large Gain$ 值的计算

$\LARGE Gain = \sum_{i \in I} \sigma_{i}$

⑤. 基尼系数可以做为熵模型的一个近似替代。

而 CART 分类树算法就是使用的基尼系数来选择决策树的特征。同时，为了进一步简化，CART 分类树算法每次仅仅对某个特征的值进行二分，而

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。