Bagging的策略
从样本中重采样(有重复的)选出n个样本
在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)
重复以上两步m次,即获得m个分类器
将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类
随机森林
在bagging基础上作了修改
从样本集中用Boorstrap(一种有放回地抽样方法)采样选出n个样本;
从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树
重复以上两步m次,即建立了m棵CART决策树
这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类。