①Random Forest 随机森林算法原理:
即bagging法+CART算法生成决策树的结合。
R F = bagging + fully-grown CART decision tree
②bagging法的核心:bootstrap在原始数据集D中选择若干个子数据集Dt,将子数据集单个单个进行决策树生成。
③随机森林的优点:
- 可并行化计算(子集的训练相互独立),效率高
- 继承了CART算法的优点(使用Gini系数选择最优特征及切分点)
- 减小了完全生成树的弊端(因为完全生成树过于复杂,Ein小但Eout大;如果不与bagging结合的话,决策树的训练是要先生成再剪枝的,而RF当中就不需要剪枝了,因为bagging法使得各个子集的决策树不会过于复杂)
④误差Eoob(out of bag 袋外误差)
此处参考博客:
作者:快乐的小飞熊
链接:https://www.jianshu.com/p/b94ec2fc345d
来源:简书
-
在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中,故没有参加决策树的建立,这些数据称为袋外数据oob,用于取代测试集误差估计方法,可用于模型的验证。(优点是不需要另外划分validation验证集,袋外数据直接作为验证数据,在