将不同的分类器组合起来,这种组合方法称为集成方法。使用集成方法时会有多种形式,可以是不同分类器的集成,也可以是数据集不同部分分给不同分类器之后的集成。下面介绍两种数据集不断变化分类器不变的集成方法。
1、bagging:基于数据随机抽样的分类器构建方法。设原数据集M个,从原始数据集中有放回的随机抽取M个新的数据集,由于是有放回的抽取,所以抽取的M个新数据集中可能有重复的数据,将新数据集应用到分类器上。bagging的思想就是抽取多组数据应用到多个分类器上即训练多个分类器,再根据投票原则得到最终分类结果(投票原则指的根据所有分类器的结果进行投票,如假设有10个分类器,对于一个新来的数据,其中7个分类器将其判断为1,3个分类器判断为-1,则该数据的类别就为1)。
2、boosting:bagging各分类器之间是串行训练的,相互之间无关,而且权重相等;而boosting各分类器之间是并行训练的,它是关注被已有的分类器错分的那些数据来获得新的分类器,并且对每个分类器分配不同的权重,每个权重代表的是该分类器对这一轮分类的成功度。其中最经典最流行的boosting集成方法是AdaBoost(adaptive boosting)。