一篇文章让你秒懂决策树与决策森林

最新推荐文章于 2024-07-15 21:55:26 发布

等风来

最新推荐文章于 2024-07-15 21:55:26 发布

阅读量860

点赞数 22

分类专栏：机器学习方向文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_77133191/article/details/139742985

版权

机器学习方向专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一.前言（可看可不看）

决策树与随机森林是机器学习中非常实用的两种算法，它们在很多领域都有广泛的应用。本文将用通俗易懂的语言，介绍决策树与随机森林的基本概念、原理和应用。

二.决策树

2.1决策树是什么（官方话）

决策树是一种基于树形结构的分类与回归方法。它通过一系列问题对数据进行训练和预测，每个问题对应树的一个节点，答案则对应树的分支。决策树具有简洁明了、易于解释和强大的分类能力。

2.2通俗理解

想象一下，你面前有一棵树，树的每个节点代表了生活中一个简单的选择。你根据当前的情况，在每个节点上做出选择，最终到达树的叶节点，叶节点给出了最终的决策。决策树就是这样的一个模型，它可以帮我们根据输入的特征，做出决策。

2.3决策树构建的步骤

2.3.1特征选择：

决定使用哪个特征来分裂节点。比如，如果你在做一个分类苹果和橙子的模型，你可能会在第一个节点选择“颜色”这个特征。

2.3.2节点分裂：

根据选定的特征和阈值，将数据集进行分割。比如，如果特征是“颜色”，阈值可能是“红色”，那么所有红色的苹果都会被分配到一个子集，所有其他颜色的水果都被分配到另一个子集。

2.3.3递归处理：

对新的子集重复特征选择和节点分裂的过程，直到满足某些停止条件，比如所有子集只包含一种类型的水果，或者达到了设定的树深度限制。

其实决策树的构建各个资料也都不一样下面再写一种，仅供参考

（

决策树的生成主要包括特征选择、决策树生成和剪枝三个步骤。

（1）特征选择：选择最优划分特征，常用的准则有信息增益、增益率和基尼指数。

（2）决策树生成：根据选择的特征和阈值，递归地生成决策树。常见的决策树生成算法有 ID3、C4.5和CART。

（3）剪枝：为了防止过拟合，可以通过剪枝来简化决策树。剪枝分为预剪枝和后剪枝两种。
（这个好像更简洁直中要害。）

）

2.4决策树的应用

决策树可以用于很多领域，比如金融信贷审批、医疗诊断、天气预测等。比如，一个决策树可以帮助医院判断一个病人是否需要手术，节点的特征可能是病人的年龄、病情严重程度等。

2.5决策树的评价

决策树的评价指标主要有准确率、召回率和F1值等。可以通过交叉验证、可视化方法和调整参数等方法来优化决策树性能。

2.6决策树的过拟合

决策树容易过拟合，尤其是当特征过多或树深度过大时。可以通过剪枝、限制树深度和特征选择等方法来防止过拟合。

三.随机森林

3.1随机森林的概述

随机森林是一种基于决策树的集成学习算法。它通过构建多个决策树并结合它们的输出来提高模型的泛化能力。随机森林的基本思想是利用多个弱学习器（即决策树）来构建一个强学习器。通俗点来说就是随机森林是一种决策树的集合。每棵决策树都是在一个随机样本上生长的，并且在每个节点处，考虑用于分裂的随机特征集。当我们需要做最终决策时，随机森林中的每一棵树都给出一个预测，我们最后取这些预测的平均值或者投票结果。

3.2bagging策略

随机森林采用bagging（bootstrap aggregating）策略来训练多个决策树。在训练过程中，随机选择样本和特征，然后将每个决策树的输出进行平均或投票，得到最终预测结果。

3.3 out of bag estimate（包外估计）

随机森林可以使用out of bag estimate来评估模型泛化能力。即将数据集分为训练集和测试集，用训练集训练多个决策树，然后用测试集计算每个决策树的预测误差，最后取平均值作为模型的泛化误差。

3.4 样本随机与特征随机

随机森林在训练过程中，不仅随机选择样本，还随机选择特征。这样可以降低模型过拟合的风险，提高模型的泛化能力。

3.5随机森林的优点

（1）分辨率更高：因为每棵树都是生长在一个随机样本上，且没有进行剪枝，所以它能更好地分辨特征空间中的细节。

（2）多样性：每棵树都是独立的，它们在训练数据集上学习到的特征不同，这样就增加了模型的多样性，使得预测结果更加稳定。

3.5随机森林的应用

随机森林广泛应用于分类和回归任务，比如图像分类、目标检测、图像分割等。由于其强大的泛化能力，它在计算机视觉领域尤为受欢迎。

四.总结

决策树和随机森林都是强大的机器学习模型，它们通过模拟人类决策过程来处理数据。决策树是一个树形结构，它根据特征进行节点分裂，最终到达叶节点做出决策。随机森林则是多棵决策树的集合，通过投票或者平均每棵树的预测结果来做出最终决策。两者都易于理解和实现，且在很多实际问题中表现出色。

关注

22
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
一篇文章让你秒懂决策树与决策森林

随机森林是一种基于决策树的集成学习算法。它通过构建多个决策树并结合它们的输出来提高模型的泛化能力。随机森林的基本思想是利用多个弱学习器（即决策树）来构建一个强学习器。通俗点来说就是随机森林是一种决策树的集合。每棵决策树都是在一个随机样本上生长的，并且在每个节点处，考虑用于分裂的随机特征集。当我们需要做最终决策时，随机森林中的每一棵树都给出一个预测，我们最后取这些预测的平均值或者投票结果。决策树和随机森林都是强大的机器学习模型，它们通过模拟人类决策过程来处理数据。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。