对于分类问题,在给定数据集前提下,训练比较粗糙的弱分类器比精确的强分类器容易得多。另外,Schapire证明了强可学习与弱可学习是等价的,因此首先学习简单的弱分类器,并进行组合就可以得到强分类器,这就是组合方法的理论基础。
组合(Ensemble)方法是一种提高分类准确率的方法,是一个由多个弱分类器组合的复合模型,其中每个单个分类器都进行投票,组合分类器返回最终组合的结果,这样分类的结果比单个分类器的结果更准确。
组合分类常见的方式有bagging(套袋)、boosting(提升)、random forest(随机森林)。这些方法使用给定的数据集 D 使用不同的方法创建
1. 生成
2. 每个分类器的训练算法
3. 组合 k 分类器的方式
bagging使用有放回抽样的方式,从训练集中抽取
random forest也是使用上述有放回抽样的方式得到训练集,但是在每个分类器训练时采用的是构建决策树,使用CART算法进行增长,随机选择给定个属性进行构建,不进行剪枝,称为Forest-RI。还有另外一种形式是对输入属性进行随机线性组合,产生多个线性组合找到最佳划分从而构建决策树。最终进行分类时每一课决策树都进行投票,返回得票数最多的类别。
boosting方法则是对每个训练的样本赋予一个权重,通过每次训练改变每个样本的权重(也就是训练数据的概率分布)得到新的训练集,没有前面所述的有放回抽样得到 k 训练集的过程,只是进行改变权重的过程进行迭代学习
本文重点关注的是使用最广泛也是被很多人称为最好的监督学习方法——AdaBoost方法,这是一种最流行的boosting方法。
AdaBoost策略
给定训练数据 D={ (X1,Y1),(X2,Y2),...(XN,YN)} , Yj∈{ +1,−1} 属于二分类问题。初始条件下,赋予每个样本 (Xj,Yj) 相等的权重 w(j)i=1N (下标为训练的轮数,上标为样本标号),也就是数据是均匀分布的。
1. 每一轮如何改变训练数据的权值(概率分布)
第 i 轮训练中,得到分类器