随机森林算法原理简要总结

最新推荐文章于 2024-05-22 12:28:53 发布

核桃耶斯

最新推荐文章于 2024-05-22 12:28:53 发布

阅读量4.3k

点赞数 1

文章标签：机器学习决策树算法

本文链接：https://blog.csdn.net/four404/article/details/115335202

版权

①Random Forest 随机森林算法原理：
即bagging法+CART算法生成决策树的结合。

R F = bagging + fully-grown CART decision tree

②bagging法的核心：bootstrap在原始数据集D中选择若干个子数据集Dt，将子数据集单个单个进行决策树生成。

③随机森林的优点：

可并行化计算（子集的训练相互独立），效率高
继承了CART算法的优点（使用Gini系数选择最优特征及切分点）
减小了完全生成树的弊端（因为完全生成树过于复杂，Ein小但Eout大；如果不与bagging结合的话，决策树的训练是要先生成再剪枝的，而RF当中就不需要剪枝了，因为bagging法使得各个子集的决策树不会过于复杂）

④误差Eoob（out of bag 袋外误差）

此处参考博客：
作者：快乐的小飞熊
链接：https://www.jianshu.com/p/b94ec2fc345d
来源：简书

在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中，故没有参加决策树的建立，这些数据称为袋外数据oob，用于取代测试集误差估计方法，可用于模型的验证。（优点是不需要另外划分validation验证集，袋外数据直接作为验证数据，在

关注