AdaBoost

最新推荐文章于 2022-01-24 12:44:02 发布

m0_37758017

最新推荐文章于 2022-01-24 12:44:02 发布

阅读量122

点赞数

分类专栏：数据挖掘

数据挖掘专栏收录该内容

14 篇文章 0 订阅

订阅专栏

理论推导URL：http://www.cnblogs.com/pinard/p/6133937.html
集成方法(Ensemble Method) = Bagging + Boosting
1）Bagging思想
通过对训练数据集进行随机采样，以重新组合成不同的数据集，利用弱学习算法对不同的新数据集进行学习，得到一系列的预测结果，对这些预测结果做平均或者投票做出最终的预测
例子：随机森林
2）Boosting思想
通过对样本进行不同的赋值，对错误学习的样本的权重设置的较大，这样，在后续的学习中集中处理难学的样本，最终得到一系列的预测结果，每个预测结果有一个权重，较大的权重表示该预测效果较好
例子：AdaBoost算法和GBDT(Gradient Boost Decision Tree，梯度提升决策树)
整个过程如下所示：
1. 先通过对N个训练样本的学习得到第一个弱分类器；
2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；
3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器；
4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。
对于boosting算法，存在两个问题：
1. 如何调整训练集，使得在训练集上训练的弱分类器得以进行；
2. 如何将训练得到的各个弱分类器联合起来形成强分类器。
针对以上两个问题，adaBoost算法进行了调整：
1. 使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数Adaboost 据样本上；
2. 将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。

AdaBoost算法的具体步骤如下：
1. 给定训练样本集S，其中X和Y分别对应于正例样本和负例样本； T为训练的最大循环次数；
2. 初始化样本权重为1/n ，即为训练样本的初始概率分布；
3. 第一次迭代：
(1) 训练样本的概率分布相当下，训练弱分类器；
(2) 计算弱分类器的错误率；
(3) 选取合适阈值，使得误差最小；
(4) 更新样本权重；
经T次循环后，得到T个弱分类器，按更新的权重叠加，最终得到的强分类器。

优点：
1）Adaboost作为分类器时，分类精度很高
2）在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活。
　　3）作为简单的二元分类器时，构造简单，结果可理解。
　　4）不容易发生过拟合
　　
缺点：
1）对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。