机器学习——打开集成方法的大门，手把手带你实现AdaBoost模型

最新推荐文章于 2022-04-25 16:19:52 发布

TechFlow

最新推荐文章于 2022-04-25 16:19:52 发布

阅读量337

点赞数

分类专栏：机器学习文章标签： python 机器学习人工智能算法

本文链接：https://blog.csdn.net/TechFlow/article/details/106851566

版权

本文介绍了机器学习中的集成方法，包括Bagging、Boosting和Stacking。重点讲解了AdaBoost，这是一种Boosting算法，通过弱分类器构建强分类器。AdaBoost在训练过程中动态调整样本权重，重点关注误分类样本，从而提高整体分类效果。文章还提供了使用Python实现AdaBoost的示例，展示了其在乳腺癌预测数据集上的优秀表现。

摘要由CSDN通过智能技术生成

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是机器学习专题的第25篇文章，我们一起来聊聊AdaBoost。

我们目前为止已经学过了好几个模型，光决策树的生成算法就有三种。但是我们每次进行分类的时候，每次都是采用一个模型进行训练和预测。我们日常在做一个决策的时候，往往会咨询好几个人，综合采纳他们的意见。那么有没有可能把这个思路照搬到机器学习领域当中，创建多个模型来综合得出结果呢？

这当然是可以的，这样的思路就叫做集成方法（ensemble method）。

集成方法

集成方法本身并不是某种具体的方法或者是算法，只是一种训练机器学习模型的思路。它的含义只有一点，就是训练多个模型，然后将它们的结果汇聚在一起。

根据这个思路，业内又衍生出了三种特定的方法，分别是Bagging、Boosting和Stacking。

Bagging

Bagging是bootstrap aggregating的缩写，我们从字面上很难理解它的含义。我们记住这个名字即可，在Bagging方法当中，我们会通过有放回随机采样的方式创建K个数据集。对于每一个数据集来说，可能有一些单个的样本重复出现，也可能有一些样本从没有出现过，但整体而言，每个样本出现的概率是相同的。

之后，我们用抽样出来的K个数据集训练K个模型，这里的模型没有做限制，我们可以使用任何机器学习方模型。K个模型自然会得到K个结果，那么我们采取民主投票的方式对这K个模型进行聚合。

举个例子说，假设K=25，在一个二分类问题当中。有10个模型预测结果是0，15个模型预测结果是1。那么最终整个模型的预测结果就是1，相当于K个模型民主投票，每个模型投票权一样。大名鼎鼎的随机森林就是采取的这种方式。

Boosting

Boosting的思路和Bagging非常相似，它们对于样本的采样逻辑是一致的。不同的是，在Boosting当中，这K个模型并不是同时训练的，而是串行训练的。每一个模型在训练的时候都会基于之前模型的结果，更加关注于被之前模型判断错误的样本。同样，样本也会有一个权值，错误判断率越大的样本拥有越大的权值。

并且每一个模型根据它能力的不同，会被赋予不同的权重，最后会对所有模型进行加权求和，而不是公平投票。由于这个机制，使得模型在训练的时候的效率也有差异。因为Bagging所有模型之间是完全独立的，我们是可以采取分布式训练的。而Boosting中每一个模型会依赖之前模型的效果，所以只能串行训练。

Stacking

Stacking是Kaggle比赛当中经常使用的方法，它的思路也非常简单。我们选择K种不同的模型，然后通过交叉验证的方式，在训练集上进行训练和预测。保证每个模型都对所有的训练样本产出一个预测结果。那么对于每一条训练样本，我们都能得到K个结果。

之后，我们再创建一个第二层的模型，它的训练特征就是这K个结果。也就是说Stacking方法当中会用到多层模型的结构，最后一层模型的训练特征是上层模型预测的结果。由模型自己去训练究竟哪一个模型的结果更值得采纳，以及如何组合模型之间的特长。

我们今天介绍的AdaBoost顾名思义，是一个经典的Boosting算法。

模型思路

AdaBoost的核心思路是通过使用Boosting的方法，通过一些弱分类器构建出强分类器来。

强分类器我们都很好理解，就是性能很强的模型，那么弱分类器应该怎么理解呢？模型的强弱其实是相对于随机结果来定义的，比随机结果越好的模型，它的性能越强。从这点出发，弱分类器也就是只比随机结果略强的分类器。我们的目的是通过设计样本和模型的权重，使得可以做出最佳决策，将这些弱分类器的结果综合出强分类器的效果来。

首先我们会给训练样本赋予一个权重，一开始的时候，每一条样本的权重均相等。根据训练样本训练出一个弱分类器并计算这个分类器的错误率。然后在同一个数据集上再次训练弱分类器，在第二次的训练当中，我们将会调整每个样本的权重。其中正确的样本权重会降低，错误的样本权重会升高。

同样每一个分类器也会分配到一个权重值 $\alpha$ ，权重越高说明它的话语权越大。这些 $\alpha$ 是根据模型的错误率来计算的。错误率 $\epsilon$ 定义为：

$\epsilon=\frac{|D_e|}{|D|}$

这里的D表示数据集 $D_e$ 表示分类错误的集合，它也就等于错误分类的样本数除以总样本数。

有了错误率之后，我们可以根据下面这个公式得到 $\alpha$ 。

$\alpha = \frac{1}{2}\ln \frac{1-\epsilon}{\epsilon}$

最低0.47元/天解锁文章

TechFlow

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习——打开集成方法的大门，手把手带你实现AdaBoost模型

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是机器学习专题的第25篇文章，我们一起来聊聊AdaBoost。我们目前为止已经学过了好几个模型，光决策树的生成算法就有三种。但是我们每次进行分类的时候，每次都是采用一个模型进行训练和预测。我们日常在做一个决策的时候，往往会咨询好几个人，综合采纳他们的意见。那么有没有可能把这个思路照搬到机器学习领域当中，创建多个模型来综合得出结果呢？这当然是可以的，这样的思路就叫做集成方法（ensemble method）。集成方法集成方法本身并不
复制链接

扫一扫

专栏目录