决策树（Decision Tree）算法原理总结（二）

最新推荐文章于 2022-10-11 15:32:17 发布

VIP文章天才厨师1号

最新推荐文章于 2022-10-11 15:32:17 发布

阅读量3.4k

点赞数 5

分类专栏：机器学习文章标签： CART 回归树决策树 CART分类树机器学习算法

本文链接：https://blog.csdn.net/weixin_40449129/article/details/102821643

版权

上篇我们探讨了ID3算法，以及C4.5算法，也了解了C4.5算法的不足，比如不能处理回归任务，多叉树效率低等。本篇我们来探讨CART算法是如何改进C4.5算法的不足，以及决策树是如何应对过拟合问题的，最后我们对决策树算法的优缺点进行一个总结。

1）CART算法简介

CART(Classification And Regression Tree)算法是我们探讨的最后一种决策树算法，也是Sklearn-Learn中决策树包使用的算法，既可以生成分类树，又可以生成回归树，也特别适合作为树模型的base model，是我们必须要掌握的一种算法。
为了优化C4.5生成多叉树时带来的效率问题，CART算法生成的是二叉树。CART算法对训练样本集的每个特征递归的进行二分判断，将特征空间划分为有限的单元。对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。
决策树防止过拟合的方式有两种方式，第一种是限制树的生长，比如限制树的最大深度，叶节点最小样本数等；另一种是剪枝（可以理解为正则）。

2）CART分类树生成算法

在上篇我们谈到在特征选择时，无论ID3的信息增益还是C4.5的信息增益率都存在大量的对数运算，降低模型效率。为了优化这个问题，CART算法使用基尼指数选择最优特征，基尼指数既能大致保持和熵模型同样的效果，又能避免对数运算。
基尼指数表示集合的不确定性，基尼系数越大，则样本集合的不确定性越高，这一点与熵相似。假设样本有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数的定义为：
               $\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
对于二分类问题，如果样本点属于第1类的概率为 $p$ ，则概率分布的基尼指数为：
               $G i n i (p) = 2 p (1 - p)$
对于给定的样本集D，基尼指数为：
               $=1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2$
其中， $C_k$ 是D中属于第 $k$ 类的样本子集， $K$ 是类的个数。
如果样本集D，根据特征A将样本分割成 $D_1$ 和 $D_2$ 两部分，则在特征A的条件下，集合D的基尼指数为：
               $Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

下面我们用一张图来对比在二分类问题中，

最低0.47元/天解锁文章

天才厨师1号

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
决策树（Decision Tree）算法原理总结（二）

        上篇我们探讨了ID3算法，以及C4.5算法，也了解了C4.5算法的不足，比如不能处理回归任务，特征选择的过程运算量较大等。本篇我们来探讨CART算法是如何改进C4.5算法的，以及决策树是如何应对过拟合问题的，最后我们对决策树算法的优缺点进行一个总结。1）CART算法简介        CART(Cl...
复制链接

扫一扫