1、基本概念:Bagging、Booststraping、OOB数据
Booststraping:
有放回样本;
Bagging:
全称Boostrapping aggregation
步骤:
1、从样本集中重采样,选出n个样本;在所有属性上,对这n个样本建立分类器;(分类器可以是决策树(ID3,C4.5,CART)、SVM或Logistic回归等)
2、重复步骤1,m次,得到m个分类器;
3、将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定将数据属于哪一类;
OOB数据:每次Boostraping,约有一定比率的样本不会出现在模型训练部分,可以用于取代测试集,用于误差估计。
2、什么是随机森林?
步骤如下:
1、从样本集合中用Boostraping采样选出n个样本;
2、从所有属性中随机选择k个属性,选择最佳分割属性作为节点,建立CART决策树;(可以是其他分类器)
3、重复步骤1和2,建立m个基分类器;
4、由m个CART模型形成随机森林,通过投票表决结果,决定数据属于哪一类;