差异 | Bagging | Bootting |
---|---|---|
样本选择 | Bootstrap随机有放回抽样 | 每一轮的训练集不变,每一个样本的权重改变 |
样本权重 | 均匀取样,每个样本权重相等 | 根据上一轮基模型的错误率调整样本权重;错误率越大,样本权重越大 |
预测函数 | 所有预测函数权重相等 | 误差越小的基模型权重更大 |
并行计算 | 各预测函数可并行生成(并联) | 各基模型必须按顺序迭代生成(串联) |
决策树 + 集成算法框架 = 新的算法:
1)随机森林 = Bagging + 决策树
2)提升树 = AdaBoost + 决策树
3)GBDT = Gradient Boosting + 决策树
Boosting 效果
-
【优】
一般来说,他的效果会比Bagging好一些 -
【缺】
- 由于新模型是在旧模型的基础上建立的,因此不能使用并行方式训练
- 并且由于对错误样本的关注,也可能造成过拟合