1、集成学习分哪几种,有何异同。
Boosting:训练基分类器时采用串行的方式,强依赖。对于错误分类的样本给与更高的权重。线性加权得到强分类器。减少偏差。
Bagging:并行训练,弱依赖。每个个体单独判断,投票做出最后的决策。减少方差。RF每次选取节点分裂属性时,会随机抽取一个个属性子集。
2、偏差和方差
偏差,偏离程度。训练开始时,拟合差,偏差大。
方差,离散程度。敏感程度。
3、为什么说bagging是减少variance,而boosting是减少bias?
boosting是把许多弱的分类器组合成一个强的分类器。弱的分类器bias高,而强的分类器bias低,所以说boosting起到了降低bias的作用。variance不是boosting的主要考虑因素。bagging是对许多强(甚至过强)的分类器求平均。在这里,每个单独的分类器的bias都是低的,平均之后bias依然低;而每个单独的分类器都强到可能产生overfitting的程度,也就是variance高,求平均的操作起到的作用就是降低这个variance。
4、Adaboost算法