决策树（2）

最新推荐文章于 2024-08-25 09:30:17 发布

计算机鬼才～

最新推荐文章于 2024-08-25 09:30:17 发布

阅读量218

点赞数 3

分类专栏：机器学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69299019/article/details/127700951

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

一、决策树构建法之C4.5算法

二、决策树构建法之CART算法

三、剪枝策略

一、决策树构建法之C4.5算法

上一篇文章我们讲到ID3算法，但是在现实中，我们却很少去用ID3算法去构建决策树。这是因为ID3算法有一个很明显的缺点：它对可取值数目较多的属性有所偏好。比如说在上一篇文章中，根节点偏向了有三个值（本硕博）的属性“学历”，而不是两个值的“教学态度”。为了减小这一不利影响，科学家们想出来了另一种评判方法————信息增益率！

先来看信息增益率的数学定义：

既然是一种“率”，那么分子肯定就是信息增益啊，分母的算法为：

当a属性的取值数目增多时IV（a）也会随之增多，作为分母，刚好能够减小信息增益随a的属性取值数目的增多而增多的不利影响。这就是信息增益率的高明之处。

需要注意的是：信息增益率对可取值少的属性有偏好，所以C4.5算法并不会直接选择信息增益率最大的那一个作为划分属性，而是会先找信息增益高于平均水平的属性，再在这些属性中选择信息增益率最大的那一个属性。

让我们重新计算一下在上一篇文章中“学历”、“教学态度”、“教学水平”谁更适合做根节点。（请移步决策树（1）_计算机鬼才～的博客-CSDN博客看小编在ID3算法举的例子）

虽然结果不变，但是我们可以很明显的看出，信息增益率的差距比信息增益的差距小的多！

二、决策树构建法之CART算法

CART算法是另一种构建决策树的关键算法。它使用的是“基尼指数”来判断属性是否适合做根节点。我们先学习“基尼值”的定义

由公式可以看出，这是一个描述纯度的值，纯度越高，基尼值越小（特别纯时，基尼值为0）。同样的，基尼指数会给基尼值加上一个权重，数学公式定义如下：

CART算法会选择基尼指数最小的属性，作为最优划分属性。（我们自然是希望越纯越好，这样子一下子就能分开！）

三、剪枝策略

让我们思考一个事儿，在上一篇文章中，我们这么划分，真的好吗？

这么构建决策树，是不是有点太“精确”了？以至于把自身的一些特点当做所有数据都具有的一般性质。毕竟学历为硕士，教学水平分别为“高”、“中”、“低”的样本，都各只有一个，完全没有说服力啊！李老师研究生毕业，很勤快但是教学水平中等，依据这张图，无法被录取，可能就是因为这张图“过于精确”了，产生了“过拟合”的特点。

聪明的科学家们，想到了一个好方法去解决“过拟合”问题，那就是————剪枝！顾名思义，就像是环卫工人给树木修剪一样，我们要砍掉自己构建的决策树的一些分支。

剪枝分为两种方法：预剪枝以及后剪枝。

预剪枝是边构建决策树边剪枝的方法，更加实用，而后剪枝则是在构建完决策树后再进行剪枝操作。

简单的预剪枝方法有：限制深度（比如说限制为3，那么就只能用三个属性来划分）、限制叶子结点个数、限制叶子结点的样本数（不能低于多少多少个样本）。预剪枝的另一个好处是，减小了构建树的工程量，使计算更为简便！

后剪枝则是通过一定的标准，来确定这个“分支”要不要减掉。这个标准有很多种，但是后剪枝由于庞大的工程量，用的其实不如预剪枝那么多，知道有这个方法就行了。

好的，本期的机器学习算法就讲到这里啦，欲学习更多的机器学习算法，关注我，小编带你体验人工智能之乐趣！当然了，如果能给小编点个赞，那就再好不过了。

计算机鬼才～

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
决策树（2）

决策树之C4.5算法、CART算法以及剪枝方法
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

计算机鬼才～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。