随机森林 Random Forest

最新推荐文章于 2024-03-11 14:45:57 发布

白水baishui

最新推荐文章于 2024-03-11 14:45:57 发布

阅读量578

点赞数 3

分类专栏： # 机器学习文章标签：随机森林决策树机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baishuiniyaonulia/article/details/81040255

版权

机器学习专栏收录该内容

20 篇文章 7 订阅

订阅专栏

随机森林是由决策树通过Bagging策略训练而成的，即：

B a g g i n g + D e c i s i o n T r e e = R a n d o m F o r e s t

$Bagging + Decision Tree = RandomForest$

随机森林的算法执行过程：
设有训练数据集 $S=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中 $x_i \in X \subseteq R^n$
弱学习器迭代次数 $T$
输出强学习器 $F(x)$

1、在第 $t,t=1,2,...,T$ 次随机取样中，采 $N$ 次样，得到包含 $N$ 个样本的采样集 $D_t$

2、将采样集 $D_t$ 使用CART方法训练第 $t$ 个弱学习器 $G_t(x)$

3、如果是分类算法预测，则 T <script type="math/tex" id="MathJax-Element-585">T</script>个弱学习器投出最多票数的类别或者类别之一为最终类别；如果是回归算法，T个弱学习器得到的回归结果进行算术平均得到的值为最终模型输出。

随机森林算法的优缺点：

优点：

训练可以高度并行化，对于大样本训练有速度优势；
由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的进行模型训练；
在训练后，可以给出各个特征对于输出的重要性；
由于采用了随机采样，训练出的模型的方差小，泛化能力强；
相对于Boosting系列的Adaboost和GBDT， RandomForest实现比较简单；
对部分特征缺失不敏感。

缺点：

在某些噪音比较大的样本集上，RF模型容易陷入过拟合；
取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果；
相对于基于决策树的Boosting的GBDT算法来说，想要达到一个比较好的效果，弱分类器的个数远高于GBDT，也就是说RandomForest模型在高维大数据集上训练出的模型太大。

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

白水baishui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。