自适应增强(Adaptive Boosting)

最新推荐文章于 2024-04-03 15:36:49 发布

baizuan6720

最新推荐文章于 2024-04-03 15:36:49 发布

阅读量835

点赞数

文章标签：人工智能操作系统 python

原文链接：http://www.cnblogs.com/Joeric07/p/10428350.html

版权

AdaBoost是一种迭代提升算法，通过结合多个弱分类器形成强分类器。文章介绍了其基本思想，包括训练最优弱分类器、计算权重、更新样本权重和迭代终止条件，并通过实例详细解释了每一步骤。此外，还提供了在Python环境下使用scikit-learn库实现AdaBoost的示例，以及探讨了AdaBoost的优缺点和参数调整的影响。

摘要由CSDN通过智能技术生成

简介

AdaBoost，是英文”Adaptive Boosting“（自适应增强）的缩写，是一种迭代提升算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

它的自适应在于：其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

基本思想

AdaBoost 的核心就是不断迭代训练弱分类器，并计算弱分类器的权重。需要注意的是，弱分类器的训练依赖于样本权重。每一轮迭代的样本权重都不相同，依赖于弱分类器的权重值和上一轮迭代的样本权重。具体过程如下：

1、训练当前迭代最优弱分类器

　　最优弱分类器是错误率最小的那个弱分类器。错误率的计算公式是：

　　其中m = 1,2,..,M，代表第m轮迭代。i代表第i个样本。w 是样本权重。I指示函数取值为1或0，当I指示函数括号中的表达式为真时，I 函数结果为1；当I函数括号中的表达式为假时，I 函数结果为0。取错误率最低的弱分类器为当前迭代的最优弱分类器。

　　第一轮迭代计算时样本权重初始化为总样本数分之一。

2、计算最优弱分类器的权重

　　优弱分类器的权重只与该弱分类器的错误率有关。弱分类器的权重计算公式如下：

　　可以看出，错误率越小，则 alpha 值越大，即该弱分类器的权重越高；反之，错误率越大，则 alpha 值越小，则该弱分类器的权重越小。这样可以使分类精度高的弱分类器起到更大的作用，并削弱精度低的弱分类器的作用。

3、根据错误率更新样本权重

　　样本权重的更新与当前样本权重和弱分类器的权重有关。样本权重更新公式如下：

　　其中m = 1,2,..,M，代表第 m 轮迭代。i代表第i个样本。w 是样本权重。alpha 是弱分类器的权重。当样本被正确分类时，y 和 Gm 取值一致，则新样本权重变小；当样本被错误分类时，y 和 Gm 取值不一致，则新样本权重变大。这样处理，可以使被错误分类的样本权重变大，从而在下一轮迭代中得到重视。