决策树（Decision Tree）和随机森林

最新推荐文章于 2024-09-27 10:38:52 发布

记得加;

最新推荐文章于 2024-09-27 10:38:52 发布

阅读量53

点赞数

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45142203/article/details/133842967

版权

笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

为达到目标根据一定的条件进行选择的过程就是决策树。
在机器学习中常被用于分类，构成它的元素是节点和边。节点会根据样本的特征作出判断，最初的分支点被称为根节点，其余的被称为子节点，不再有分支的节点则被称为叶子节点，它们代表样本的分类结果。边则指示着方向。
构建决策树—熵
熵代表分支下样本种类的丰富性，样本种类越多，越混乱，熵就越大，如果分支下的样本完全属于同一类，熵就等于0。
构造树的基本思路：随着树的深度，也就是层数的增加，让熵快速降低，熵降低的速度越快，代表决策树分类效率越高。
决策树的优点：天然的可解释性。
缺点：数据都是有特例的。如果一棵树能将训练样本完美分类，那它一定是过拟合的。解决的方法就是去掉一些分支（剪枝）。
剪枝有两种：预剪枝是在训练开始前规定条件，比如树达到某一深度就停止训练；后剪枝则是先找到树，再依据一定条件如限制叶子结点的个数，去掉一部分分支

随机森林里有很多决策树，随机森林是决策树的升级版。
随机指的是树的生长过程。
在构建决策树时，我们会从训练数据中有放回的随机选取一部分样本，也不会使用数据的全部特征，而是随机选取部分特征进行训练，每棵树使用的样本和特征各不相同，训练的结果自然也不同。
随机森林的输出结果由投票决定，如果大部分决策树认为测试数据是什么样的，则认为是什么样的。
因为树与树之间的独立，它们可以同时训练，随机的过程让它不容易过拟合，能处理特征较多的高维数据，也不需要做特征选择，合理训练后准确性很高。
在机器学习中，随机森林属于集成学习，也就是将多个模型组合起来解决问题，这些模型会独立学习、预测、再投票出结果，准确性往往比简单的模型高很多。