一、bagging和boosting的区别
1.样本选择:
bagging采用bootstraping的方式进行随机有放回的取样,各轮训练集之间是独立的;
boosting每轮训练的样本是固定的,改变的是样本的权重。
2.样本权重
bagging采取的是均匀取样,每个样本的权重相同;
boosting根据错误率调整样本权重,错误率越大的样本权重越大。
3.预测函数
bagging所有预测函数的权重相同;
boosting中误差越小的预测函数权重越大。
4.并行计算
bagging的各个预测函数可以并行生成;
boosting的各个预测函数必须按照顺序迭代生成。
二、boosting的两个核心问题
1.在每一轮如何改变训练数据的权值或概率分布?
通过提高在前一轮被错误分类的样本权重,减小在前一轮被正确分类的样本权重,使错误分类的样本在后续得到更多的关注。
2.通过什么方式来组合弱分类器?
通过加法模型将弱分类器进行线性组合,比如adaboost通过加权多数表决的方式,即正确率越高的分类器在决策中的权重越大;提升决策树通过拟合残差的方式逐步减小残差,将每一步生成的模型叠加得到最终模型。
三、集成学习中的投票组合策略
1.相对多数投票
n个分类器的预测结果少数服从多数;
2.绝对多数投票
n个分类器的预测结果不仅要少数服从多数,还要求多数票要过半,否则会拒绝预测;
3.加权投票