集成学习(ensemble learning)
【内容包含 第八章】
个体与集成
集成学习一般是多个个体学习器以某种策略结合起来,其中的个体学习器可以是同质(homogeneous)的,成为“基学习算法”,也可以是异质(heterogenous)的,个体学习器成为组件学习器(component learner)。
目前的集成学习主要分两类:
1.串行进行的序列化方法,比如Boosting
2.同时进行的并行化方法,比如随机森林(Random Forest)
Boosting
基本思想:先训练出一个基学习器,再根据验证结果对训练样本分布做调整,再训练下一个基学习器,最终训练出T个基学习器,然后将T个基学习器加权结合。
AdaBoost
加性模型(additive model),基学习器的线性组合