机器学习：随机森林笔记

最新推荐文章于 2024-07-25 11:12:43 发布

Ningbo_JiaYT

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量480

点赞数 7

分类专栏：机器学习文章标签：机器学习随机森林笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ningbo_JiaYT/article/details/135197436

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

随机森林（Random Forest, RF）是一种强大且常用的集成学习算法，主要用于分类和回归任务。它通过构建多个决策树并将它们集成在一起来提高模型的性能和泛化能力。

目录

1.决策树的基本原理

2.随机性的引入

3.集成学习的思想

示意图

基本原理

1.决策树的基本原理

RF 的基础是决策树。决策树是一种树状模型，用于对实例进行分类或回归。在决策树中，每个内部节点表示对某个特征的测试，每个分支代表测试结果的一个可能输出，而每个叶节点存储一个类别标签（用于分类）或一个数值（用于回归）。

2.随机性的引入

RF 引入了两种随机性来提高模型的多样性（保证基学习器的多样性）。

2.1 随机样本选择（Bootstrap Sampling）：从原始数据集中有放回地随机抽样，形成每棵树的训练集。这样就保证了每个决策树的训练集是不同的，增加了模型的多样性。

2.2 随机特征选择：在每次构建决策树时，从所有特征中随机选择一个固定数量的特征子集。在每个节点的分割时，从这个特征子集中选择最佳的分割特征。这样做的目的是防止某些特征过于主导，使得每个决策树都过于相似。

3.集成学习的思想

即 RF 的核心思想：通过构建多个决策树，每个决策树都是在不同的训练子集上训练的，然后集成它们的决策，以提高整体模型的性能和泛化能力。在分类问题中，通过多数投票的方式确定最终的预测类别；在回归问题中，取多个决策树预测值的平均值。

算法过程

1.创建训练子集：从原始数据集中有放回地抽样选择样本，形成训练子集。

2.创建特征子集：对上述每个训练子集，从总体特征中随机选择固定数量的特征子集。

3.构建决策树：使用 ID3、C4.5 或 CART算法进行最优分裂构造决策树。

4.重复过程：重复步骤1~3，直到构建了预定数量的树。

5.集成决策树：集成所有决策树的预测结果。

特点/优点

1.抗过拟合：由于采用了随机子样本和随机特征选择，RF 能够有效抵抗过拟合，尤其是在有大量决策树时。

2.评估特征的重要性：RF 能够评估各个特征的重要性，为特征选择提供依据。

3.对缺失值和噪声的鲁棒性：由于每棵决策树都是在不同的子集上训练的，因此 RF 对于个别的错误或异常数据点不太敏感。

4.无需特征缩放：RF 对特征的尺度不敏感，不需要进行特征缩放（如归一化或标准化）就能够产生良好的结果。

5.并行化处理：决策树间彼此独立，因此 RF 易于并行化处理：能够充分利用计算资源，提高训练速度，适用于高维数据集，并能处理大规模数据。

注意事项

1.内存使用：由于构建了多棵树，RF 可能占用较多内存。

2.计算速度：RF 的计算速度与决策树的数量呈负相关。

3.类别不平衡：在处理分类问题时，各类别的数量存在很大差异（例如在二分类中，两个类别的数量比＞ 1：1），需要特别的采样方式，如欠采样、过采样等。

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习：随机森林笔记

随机森林学习笔记
复制链接

扫一扫

专栏目录

Ningbo_JiaYT CSDN认证博客专家 CSDN认证企业博客

码龄3年

25: 原创

39万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

636: 积分

506: 粉丝

371: 获赞

12: 评论

347: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习：KNN算法笔记
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
机器学习：ROC曲线笔记
Ningbo_JiaYT: 谢谢，向您学习
机器学习：ROC曲线笔记
白话机器学习: 文章写得专业、深入、详细，收藏啦
机器学习：ROC曲线笔记
CSDN-Ada助手: 恭喜作者撰写了第20篇博客，题目为“机器学习：ROC曲线笔记”。文章内容深入浅出，对ROC曲线进行了详细的解释和分析，让读者受益匪浅。希望作者能够继续坚持创作，可以考虑结合实际案例或者应用场景，更好地帮助读者理解和应用所学知识。期待作者的下一篇精彩博文！
机器学习：数据集划分笔记
CSDN-Ada助手: 恭喜您撰写了第19篇博客！《机器学习：数据集划分笔记》这个主题听起来非常有趣。阅读您的博客让我对数据集划分有了更深入的了解。您的解释清晰明了，让人容易理解，我很喜欢。希望在接下来的博客中，您可以继续分享更多关于机器学习的知识。也许您可以探讨一些实际应用的案例，或是介绍一些新颖的算法或技术，这样能够进一步丰富读者的知识储备。不过，我也明白这些建议只是个人观点，您一定有自己独特的创作计划。期待您未来的博客，谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。