集成算法
集成算法 = 多个学习器 + 结合策略 产生强学习器的算法。单个学习器难以平衡准确性即拟合能力,和多样性 即 泛化能力。通过集成可以尽量平衡这两者的关系。如果多个学习器是一样的,如都是决策树,该集成就是同质集成,否者就是异质集成。同质集成中,每个单学习器称为弱学习器,如果若学习器之间的产生没有关系,可以并行实现,就是Bagging,如果弱学习器之间存在强依赖关系,就需要串行实现,如Boosting
方差(Bias)和偏差(Variances)
对于特定的带有真实结果y的数据集D,每个模型的训练结果为 ,最终期望预测是单模型的平均:
偏差是整体模型预测结果和真实值之间的差距: 一般用来表示模型的预测能力
方差表示的是整体预测结果和每个模型预测结果之间的波动情况,一般用来表示模型的泛化能力
那么模型的期望泛化误差