本文主要介绍集成学习模型的相关内容。集成学习是一种学习框架,它的base learner 可以是任何模型,集成学习的主要思想在于将不同的base learner 融合产生预测的方法。其中主要有三种融合方式。
一、用于减少方差的Bagging
并行方式:
-
在原始数据集上通过有放回抽样重新选出K个新数据集来训练分类器
-
使用训练出来的分类器的集合来对新样本进行分类
-
用的多数投票或者对输出求均值的方法统计所有分类器的分类结果
【疑问】
1.训练和验证过程:使用何种方式确定预测结果?分类器的取优过程?
2.测试集的测试过程使用均值或者多数规则?
3.有放回的取样过程:每个分类器取样的样本数是多少?
二、用于减少偏差的Boosting
过程: