一:Ensemble Learning
1.1 简介
集成学习的主要思路是:根据指定的训练集,训练过个分类器,然后把这些分类器的分类结果进行某种结合(比如投票、加权求和)决定分类结果,以取得更好的结果。引用一句俗语表示就是——三个臭皮匠顶个诸葛亮,即通过多个决策者来提高分类器的泛化能力。
1.2 分类器
在前一节中,我们提到了分类器,实际上我们也可以把单个的分类器称为一个个体学习器。而这个个体学习器就对应机器学习中的一些学习算法——决策树、神经网络、支持向量机等等。同时在一个集成学习中,我们可以全部使用相同的学习算法,也可以使用不同的学习算法。(个人估计,这也是该算法名称的由来)。在本章的后续过程中,将重点说明两个集成学习的算法:Bagging、Boosting。
1.3 主要问题
如果我们仔细思考1.1中对于集成学习算法主要思想的描述,你会发现“我们主要解决的问题”有如下两点:
1. 构建差异性基分类器。这个主要是利用用户提供的数据生成我们需要的分类器。
2. 如何合并分类器?针对我们已经生成好的分类器,我们该如何结合这些分类器?
二:Bagging
2.1 场景
我们现在提供了一个数据集 D∈{ <xi