集成学习方法
方法概述
集成学习(ensemble learning)方法通过构建并结合多个学习器并将之结合来解决一个问题。
其一般框架如上图所示:一个集成由多个基学习器(base learner)构成,基学习器由及分类算法在训练数据集上训练获得。
根据基学习器的种类,集成学习方法可以分为同质集成与异质集成,目前同质集成的应用更为广泛。
对集成学习方法进行分析:
-
参数角度,同质集成方法中同种基学习器本就是同过不同训练数据或不同超参数实现,因此就集成整体而言不需要超参数选择。
-
效果角度,集成学习通常具有比基学习器更强的泛化能力,可以将弱分类器通过组合形成精确度高的强学习器。
-
效率角度:由于使用集成学习不必像单一学习器一般考虑模型选择和参数调整,构建一个集成的计算代价未必高于构建一学习器;同时由于结合策略一般比较简单且基分类器可以并行处理,集成方法的推理代价也相对较小。
集成学习方法主要类别:
- 根据使用的基学习器是否相同
- 同质集成:基学习器种类相同,使用不同超参数或者学习策略得到不同的基学习器
- 异质集成:基学习器种类不同,使用策略将不同学习器的结果集成
- 同质集成应用相对更为广泛
- 根据具体集成的方法:
- Bagging(Bootstrap Aggregating 自助聚合)
- 核心思路:对训练集采用自助采样方式得到训练子集,在子集上训练基学习器;使用分类任务投票,回归任务平均的方式聚合基分类器
- Boosting
- 核心思路:串行训练一系列分类器,使得先前分类器分错的样本在后续收到更多的关注,将系列基分类器结合得到效果更好的强分类器。
- Stacking
- 核心思想:使用原始数据集训练一级学习器,再以一基学习器的输出作为新的输入特征新联二级学习器
- Bagging(Bootstrap Aggregating 自助聚合)
参考资料
【1】《统计学习方法》李航
【2】《强化学习》周志华