机器学习基础决策树

最新推荐文章于 2023-03-08 22:38:58 发布

一枚程序员

最新推荐文章于 2023-03-08 22:38:58 发布

阅读量305

点赞数

分类专栏：机器学习实验 AI 文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37557582/article/details/108188059

版权

AI 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习实验

3 篇文章 0 订阅

订阅专栏

本文深入讲解决策树算法，包括其工作原理、构建过程及防止过拟合策略。决策树是一种直观且易于理解的机器学习算法，适用于多种应用场景。文章详细介绍了熵、信息增益、基尼系数等概念，并探讨了ID3、C4.5等经典算法。

摘要由CSDN通过智能技术生成

1 决策树是什么？

决策树算法是机器学习中最经典的算法之一。大家可能听过一些高深的算法，例如在竞赛中经常使用的Xgboost、各种集成算法等，他们都是基于树模型来建立的，所以掌握那些模型，首先我们需要掌握决策树。
树：有一个根节点，由根结点开始，不断的扩展，最终到达叶子结点，叶子结点就是最终的点，后面就无法扩展了。（相关数据结构可以自行补齐）
决策树的原理和搜索二叉树的原理差不多，从根结点开始，每次经过一个结点，都需要判断走左边还是右边，最终目标结点，那么达到目标结点的过程就是决策的过程。
根节点：数据的聚集地，第一次划分数据集的地方
非叶子节点与分支：代表中间过程的每个节点
叶子节点：数据最终的决策结果。

2 为什么用决策树

决策树的优点：简单，可视化容易，易于理解。多个树模型可以bagging，boosting，stacking来提高最终的模型效果。
缺点：容易出现过拟合现象，所以需要有剪枝策略来提高模型的泛化能力。

3 构建决策树

首先，我们需要知道怎么衡量一个特征拆分后的好坏，以及使用什么条件进行拆分（可能是枚举值，也可能是连续值）。如果是连续值，那么需要做迭代优化的过程，来选择最合适的阈值，使得最终拆分后的效果最好。

熵：指物体内部的混乱程度。根据熵的定义，熵值越高，混乱程度越高。

3.1 特征的选择

那么如何衡量拆分的好坏呢？
衡量的标准有：信息增益，信息增益率，基尼系数等。
这三种从不同的方面衡量了数据在划分前后的变换，找到最好的效果，也就是变化最大的方向，那么就选择这个特征作为我们的决策树的一个节点。

3.2 决策树的生成

有ID3算法、C4.5算法等。
ID3：在构建决策树的过程中，使用信息增益来判断这个特征拆分后，通过熵的变化（信息增益）来判断效果，按照这个方式知道构建一棵决策树。
C4.5：和ID3类似，只是在构建决策树的时候，使用信息增益率来判断特征的好坏，信息增益率 = 信息增益/自身熵值

3.3 防止过拟合

当样本数据很大的时候，如果我们不采取措施，那么这棵树就会特别的庞大，在我们的训练集上，模型的效果会展现的很好，但是一旦到了测试集，效果就差了，这就是过拟合现象。
决策树很容易出现过拟合现象，所以我们需要采取措施防止过拟合现象的发生。
在决策树中，我们称这种方法为剪枝。
1）预剪枝：在构造决策树的同时进行剪枝，目的是限制决策树的复杂程度。常用的停止条件有树的层数、叶子结点的个数、信息增益阈值等指标，这些都是决策树算法的输入参数，当决策树的构建达到停止条件后就会自动停止。
2）后剪枝：决策树构建完成之后，通过一定的标准对其中的节点进行判断，可以自己定义标准。
后剪枝比较复杂，我们一般使用预剪枝。