决策树（上）：要不要去打篮球？

最新推荐文章于 2023-04-17 18:46:29 发布

LiuDi1999

最新推荐文章于 2023-04-17 18:46:29 发布

阅读量2.3k

点赞数 1

分类专栏：数据分析实战

本文链接：https://blog.csdn.net/qq_41520877/article/details/108106257

版权

这篇博客介绍了决策树的工作原理，包括构造和剪枝两个阶段。构造涉及选择属性作为节点，而剪枝旨在防止过拟合。过拟合可能导致模型泛化能力差。博客探讨了预剪枝和后剪枝，以及信息熵和纯度等概念，用于决策树节点的选择。最后，对比了ID3和C4.5算法，指出C4.5通过信息增益率、悲观剪枝和处理连续属性及缺失值的优势。

摘要由CSDN通过智能技术生成

决策树的工作原理
决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球，一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断，最后得到结果：去打篮球？还是不去？
在这里插入图片描述
上面这个图就是一棵典型的决策树。**我们在做决策树的时候，会经历两个阶段： ** 构造和剪枝。

构造
什么是构造呢？构造就是生成一棵完整的决策树。简单来说，构造的过程就是选择什么属性作为节点的过程，那么在构造过程中，会存在三种节点：

根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；
内部节点：就是树中间的那些节点，比如说“温度”、“湿度”、“刮风”；
叶节点：就是树最底部的节点，也就是决策结果。

节点之间存在父子关系。比如根节点会有子节点，子节点会有子子节点，但是到了叶节点就停止了，叶节点不存在子节点。那么在构造过程中，你要解决三个重要的问题：

选择哪个属性作为根节点；
选择哪些属性作为子节点；
什么时候停止并得到目标状态，即叶节点。

剪枝
决策树构造出来之后是不是就万事大吉了呢？也不尽然，我们可能还需要对决策树进行剪枝。剪枝就是给决策树瘦身，这一步想实现的目标就是，不需要太多的判断，同样可以得到不错的结果。 之所以这么做，是为了防止“过拟合”（Overfitting）现象的发生。

“过拟合” 这个概念一定要理解，它指的就是模型的训练结果“太好了”，以至于在实际应用的过程中，会存在“死板”的情况，导致分类错误。

欠拟合，和过拟合就好比是下面这张图中的第一个和第三个情况一样，训练的结果“太好“，反而在实际应用过程中会导致分类错误。
在这里插入图片描述
造成过拟合的原因之一就是因为训练集中样本量较小。 如果决策树选择的属性过多，构造出来的决策树一定能够“完美”地把训练集中的样本分类，但是这样就会把训练集中一些数据的特点当成所有数据的特点，但这个特点不一定是全部数据的特点，这就使得这个决策树在真实的数据分类中出现错误，也就是模型的“泛化能力”差。

泛化能力指的分类器是通过训练集抽象出来的分类能力，你也可以理解是举一反三的能力。如果我们太依赖于训练集的数据，那么得到的决策树容错率就会比较低，泛化能力差。因为训练集只是全部数据的抽样，并不能体现全部数据的特点。

既然要对决策树进行剪枝，具体有哪些方法呢？一般来说，剪枝可以分为“预剪枝”（Pre-Prunin

最低0.47元/天解锁文章

LiuDi1999

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
决策树（上）：要不要去打篮球？

决策树的工作原理决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球，一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断，最后得到结果：去打篮球？还是不去？上面这个图就是一棵典型的决策树。**我们在做决策树的时候，会经历两个阶段： ** 构造和剪枝。构造什么是构造呢？构造就是生成一棵完整的决策树。简单来说，构造的过程就是选择什么属性作为节点的过程，那么在构造过程中，会存在三种节点：根节点：就是树的最顶端，最开始的那个节点。在上图中，“天气”就是一个根节点；内部节点：就
复制链接

扫一扫

专栏目录