python机器学习之adaboost元算法

最新推荐文章于 2023-07-22 16:49:38 发布

Jeffrey_Cui

最新推荐文章于 2023-07-22 16:49:38 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/cui134/article/details/31770755

版权

本文深入探讨Adaboost元算法，一种通过组合多个弱分类器以提高预测精度的方法。Adaboost通过调整样本权重，重点关注错误分类的数据，训练一系列弱分类器并加权求和得到最终分类结果。文章还展示了使用单层决策树作为弱分类器的代码实现，并通过马疝病数据集的实际应用，分析了不同弱分类器数量对训练和测试错误率的影响，揭示了过拟合现象以及如何选择合适的弱分类器个数。

摘要由CSDN通过智能技术生成

在做一些决定的时候，我们往往需要吸取多个专家的意见，这就是元算法背后的思路，这里的专家就相当于前几个博文的分类器一样，结合多个分类器的结果得出的结果往往比单一一个分类器的结果要精准一些。

adaboost是boosting方法多个版本中最流行的一个版本，它是通过构建多个弱分类器，通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的，通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。

本文主要介绍了通过单层决策树构建弱分类器，同理，也可以用其他的分类算法构建弱分类器。

adaboost全称是adaptive boosting(自适应boosting)，为什么是自适应呢，首先，先介绍一下它的原理：首先，对训练数据中每一个样本附上一个权重，这些权重构成向量D，一开始给这些权重初始化为相同的值。第一次训练时，权重相同，和原先的训练方法一样，训练结束后，根据训练的错误率，重新分配权重，第一次分对的样本的权重会降低，分错的样本权重会增大，这样再对第二个分类器进行训练，每一个分类器都对应一个alpha权重值，这里的alpha是对于分类器而言，前面的D是对于样本而言。最后训练出一系列的弱分类器，对每一个分类器的结果乘以权重值alpha再求和，就是最终的分类结果。自适应就体现在这里，通过对D的一次次的优化，最后的结果往往可以快速收敛。

这里错误率的定义如下：