【ML】随机森林（Random Forest，RF）

最新推荐文章于 2024-06-19 15:37:05 发布

机器不学习我学习

最新推荐文章于 2024-06-19 15:37:05 发布

阅读量459

点赞数 1

分类专栏： CV面试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AugustMe/article/details/112218624

版权

CV面试同时被 2 个专栏收录

63 篇文章 18 订阅

订阅专栏

32 篇文章 8 订阅

订阅专栏

1. 随机森林的概念

Q：什么是随机森林？
A：随机森林是一个包含多个决策树的分类器，由很多决策树构成，不同的决策树之间没有关联。当我们进行分类任务时，森林中的每一棵决策树都会分别对样本进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。（即，少树服从多树）。

看起来是不是很简单呢？但是这里有一个问题，那就是随机森林中有多个决策树，那么，我们如何用已有的数据集去构建这么多的决策树呢？

首先，要明白，决策树是不同的，那么训练决策树所需要的数据也不同。

那么具体该如何选择呢？
既然是随机森林，那么它肯定是随机的！！！它的随机有两层含义：

样本随机：Bagging算法
属性随机

1.1. 样本随机

样本随机使用的是Bagging算法（Bootstrap aggregating，引导聚集算法）又称之为装袋算法。算法的流程如下：

给定一个训练集大小为n的训练集D，Bagging算法从中间随机的、有放回的选出m个大小为n′ 的子集D_i作为新的训练集。

postscript：通过以上这种取样得到的集合D_i中间可能会有重复的元素（因为是有放回的抽取元素）

1.2. 属性随机

若样本有M个属性时，随机从这M个属性中选取出m个属性（无放回），满足条件m<M。

postscript：在这种情况下，m个属性中是没有重复的属性的。

2. 随机森林的优缺点

优点：

它可以出来很高维度（特征很多）的数据，并且不用降维，无需做特征选择
它可以判断特征的重要程度（可以用来做特征选择）
可以判断出不同特征之间的相互影响
不容易过拟合
训练速度比较快，容易做成并行方法
实现起来比较简单
对于不平衡的数据集来说，它可以平衡误差。
如果有很大一部分的特征遗失，仍可以维持准确度。

缺点：

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

参考

https://www.cnblogs.com/xiaohuiduan/p/12490064.html

机器不学习我学习

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【ML】随机森林（Random Forest，RF）

1. 随机森林的概念Q：什么是随机森林？A：随机森林是一个包含多个决策树的分类器，由很多决策树构成，不同的决策树之间没有关联。当我们进行分类任务时，森林中的每一棵决策树都会分别对样本进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。（即，少树服从多树）。看起来是不是很简单呢？但是这里有一个问题，那就是随机森林中有多个决策树，那么，我们如何用已有的数据集去构建这么多的决策树呢？首先，要明白，决策树是不同的，那么训练决策树所
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

机器不学习我学习 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。