Bagging主要在优化variance(即模型的鲁棒性)
boosting主要在优化bias(即模型的精确性)
上一节说过了 error= variance + bias
下面分别说一下怎么优化的:
bagging:Boostrap Aggregating 意思是重采样 然后在每个样本上训练出来的模型取平均值
Boosting:是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行加权
variance是模型的鲁棒性,即模型的泛化能力,如果训练的样本高度相关,那么模型的鲁棒性肯定不会好。
bagging:通过重采样的方法,各个模型之间的相关性并不高,所以可以降低variance,而并没有针对bias进行优化。而Bagging是通过重采样的方法降低了模型的过拟合的可能性。
Boosting:从优化的角度看,每次都根据上一次迭代的结果进行优化,所以各个子模型之间是高度相关的,variance并不会显著提高,所以,Boosting主要是针对bias进行优化。同时,Boosting是将许多弱分类器放在一起,组合成一个强分类器,而所谓的弱分类器,就是bias大的分类器,而强分类器就是bias小的分类器,所以bias是boosting的主要优化目标。