集成学习通过构建并结合多个学习器来完成学习任务。集成学习示意图如下图:
集成学习示意图
一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,注意的是集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树,“神经网络集成”中全是神经网络,这样的集成是“同质”的。同质集成中的个体学习器也成“基学习器”,相应的学习算法称为“基学习算法”,集成也包含不同类型的个体学习器,例如同时包含决策树和神经网络,这样的集成是“异质”的。异质集成中的个体学习器由不同的学习算法生成,这时不再有基学习算法。相应的,个体学习器一般不称为基学习器,常称为“组件学习器”或直接称为个体学习器。
集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,这对“弱学习器”尤为重要,(“弱学习器”常指泛化性能略优于随机猜测的学习器;比如在二分类问题上精度略高于50%的分类器),因此,集成学习的很多理论研究都是针对弱学习器进行的,而基学习器有时也直接成为弱学习器。但是需要注意