bagging 是由不同的分类器(1.数据随机化 2.特征随机化)经过训练,综合得出的出现最多分类结果;boosting 是通过调整已有分类器错分的那些数据来获得新的分类器,得出目前最优的结果。
bagging 中的分类器权重是相等的;而 boosting 中的分类器加权求和,所以权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。
随机森林属于bagging。是利用多棵树对样本进行训练并预测的一种分类器。
过程:
-
采取有放回的抽样方式 构造子数据集,保证不同子集之间的数量级一样(不同子集/同一子集 之间的元素可以重复)
-
利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。
-
然后统计子决策树的投票结果,得到最终的分类 就是 随机森林的输出结果。
随机森林有两个方面:
- 数据的随机性化
- 待选特征的随机化
待选特征的随机化:
- 子树从所有的待选特征中随机选取一定的特征。
- 在选取的特征中选取最优的特征。