新手必备 | 机器学习之决策树（五）

最新推荐文章于 2024-04-23 20:17:02 发布

Mrrunsen

最新推荐文章于 2024-04-23 20:17:02 发布

阅读量572

点赞数

分类专栏： Python系列专栏文章标签：决策树剪枝算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mrrunsen/article/details/117409016

版权

Python系列专栏专栏收录该内容

116 篇文章 9 订阅

订阅专栏

文章目录

决策树

依据特征划分的树状图。决策树包括特征、类别和层数。分别对应非叶子节点、叶子节点和层数。
不同的特征选择（包括顺序和数量）会得到不同的决策树。
决策树的层数直接对应了模型的复杂度。
每个节点尽量只包含一种类别，这种决策树也称为最纯的决策树。
只有一层的决策树，也称为决策树桩（Decision Stump）。

基尼系数

基尼系数（Gini index）：
$G i n i (p) = 2 p (1 - p)$
使用基尼系数来判定特征使用的顺序。
其一般形式表示为：

$Gini(p)=\sum_{i}p_i(1-p_i)=1-\sum_{i}p_i^2$

$其中p_i是各个类别的占比.$

CART 算法

以相邻特征值进行二分的算法就称为 CART 算法（Classification And Regression Tree）。
不光可以对连续的的特征值进行二分，对离散的可以同样的处理。

预剪枝与后减枝

我们可以根据情况设定一个超参数 $\alpha$ ，在当前节点的基尼系数低于 $\alpha$ 时，就可以停止划分，防止模型复杂度不断升高。这种对决策树层数的控制就称为剪枝（pruning）。

另一种剪枝策略，设定一个超参数 $\beta$ ，当划分后收益没有超过 $\beta$ 就撤回划分.
前面两种算法都是边划分边剪枝，这称为预剪枝（Pre-Pruning）。也可以划分好了之后再去剪枝，这就是后剪枝（Post-Pruning）.

预剪枝一旦遇到基尼系数减小较少就不再往下细分，有可能导致后面可能出现的好的划分被忽略掉了，从而造成模型的复杂度太低，最终发生欠拟合。

后剪枝不会出现这样的问题，所以在实际应用中，后剪枝是更常见的。其缺点是计算量较大。

回归树

最终预测的是连续值，则此时的决策树又称为回归树（regression tree）。
分类树已基尼系数来判定划分的合理性，而回归数已差的平方和来判定划分的合理性。
最后预测时，采用平均值来预测。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
新手必备 | 机器学习之决策树（五）

文章目录决策树基尼系数CART 算法预剪枝与后减枝回归树决策树依据特征划分的树状图。决策树包括特征、类别和层数。分别对应非叶子节点、叶子节点和层数。不同的特征选择（包括顺序和数量）会得到不同的决策树。决策树的层数直接对应了模型的复杂度。每个节点尽量只包含一种类别，这种决策树也称为最纯的决策树。只有一层的决策树，也称为决策树桩（Decision Stump）。基尼系数基尼系数（Gini index）：Gini(p)=2p(1−p)Gini(p)=2p(1-p)Gini(p)=2p(1−p)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mrrunsen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。