机器学习实战（八）AdaBoost算法(1)

最新推荐文章于 2022-06-09 11:25:27 发布

QxwOnly

最新推荐文章于 2022-06-09 11:25:27 发布

阅读量1.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qs17809259715/article/details/98941982

版权

机器学习专栏收录该内容

24 篇文章 9 订阅

订阅专栏

文章目录

一、AdaBoost简介

1.AdaBoost是什么？
AdaBoost，是英文"Adaptive Boosting"（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

Adaboost算法基本原理就是将多个弱分类器（弱分类器一般选用单层决策树）进行合理的结合，使其成为一个强分类器。在这里插入图片描述
2.AdaBoost算法可以简述为三个步骤：

（1）首先，是初始化训练数据的权值分布D1。假设有N个训练样本数据，则每一个训练样本最开始时，都被赋予相同的权值：w1=1/N。

（2）然后，训练弱分类器hi。具体训练过程中是：如果某个训练样本点，被弱分类器 $h_i$ 准确地分类，那么在构造下一个训练集中，它对应的权值要减小；相反，如果某个训练样本点被错误分类，那么它的权值就应该增大。权值更新过的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。

（3）最后，将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小。

二、AdaBoost算法过程

给定一个训练数据集 $T={(x_1,y_1), (x_2,y_2)…(x_N,y_N)}$ ，其中实例 $x \in χ$ ，而实例空间， $y_i$ 属于标记集合{-1,+1}，Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器。

AdaBoost的算法流程如下：

步骤1. 首先，初始化训练数据的权值分布。每一个训练样本最开始时都被赋予相同的权值：1/N。

步骤2. 进行多轮迭代，用m = 1,2, …, M表示迭代的第多少轮

（1）使用具有权值分布Dm的训练数据集学习，得到基本分类器（选取让误差率最低的阈值来设计基本分类器）：

（2）计算Gm(x)在训练数据集上的分类误差率

注：由上述式子可知， $G_m(x)$ 在训练数据集上的误差率 $e_m$ 就是被 $G_m(x)$ 误分类样本的权值之和

（3）计算 $G_m(x)$ 的系数， $a_m$ 表示 $G_m(x)$ 在最终分类器中的重要程度（目的：得到基本分类器在最终分类器中所占的权重。注：这个公式 写成 $α_m = 1/2ln((1 - e_m)/e_m$ 更准确，因为底数是自然对数e，故用In， 写成log容易让人误以为底数是2或别的底数，下同）：

注：由上述式子可知， $e_m <= 1/2$ 时， $a_m >= 0$ ，且 $a_m$ 随着 $e_m$ 的减小而增大，意味着分类误差率越小的基本分类器在最终分类器中的作用越大。

（4）更新训练数据集的权值分布（目的：得到样本的新的权值分布），用于下一轮迭代

注：使得被基本分类器 $G_m(x)$ 误分类样本的权值增大，而被正确分类样本的权值减小。就这样，通过这样的方式，AdaBoost方法能“重点关注”或“聚焦于”那些较难分的样本上。
其中， $Z_m$ 是规范化因子，使得 $D_m+_1$ 成为一个概率分布：

步骤3. 组合各个弱分类器

从而得到最终分类器，如下：

三、AdaBoost实例讲解

注：博主有点懒，所以鉴于案例分析有点长，此次借用网上一篇博主的博客，附截图如下。如果有不明白的，可以在下面留言。

例：给定如图所示的训练样本，弱分类器采用平行于坐标轴的直线，用Adaboost算法的实现强分类过程。

数据分析：

将这10个样本作为训练数据，根据 X 和Y 的对应关系，可把这10个数据分为两类，图中用“+”表示类别1，用“O”表示类别-1。本例使用水平或者垂直的直线作为分类器，图中已经给出了三个弱分类器，即：

初始化：

首先需要初始化训练样本数据的权值分布，每一个训练样本最开始时都被赋予相同的权值： $w_i=1/N$ ，这样训练样本集的初始权值分布 $D_1(i)$ ：

令每个权值 $w_1i = 1/N = 0.1$ ，其中，N = 10，i = 1,2, …, 10，然后分别对于t= 1,2,3, …等值进行迭代（t表示迭代次数，表示第t轮），下表已经给出训练样本的权值分布情况：

第1次迭代t=1：

初试的权值分布 $D_1$ 为1/N（10个数据，每个数据的权值皆初始化为0.1）

$D_1$ =[0.1, 0.1, 0.1, 0.1, 0.1, 0.1,0.1, 0.1, 0.1, 0.1]

在权值分布 $D_1$ 的情况下，取已知的三个弱分类器h1、h2和h3中误差率最小的分类器作为第1个基本分类器H1(x)（三个弱分类器的误差率都是0.3，那就取第1个吧）

可见被误分类样本的权值之和影响误差率e，误差率e影响基本分类器在最终分类器中所占的权重α。

然后， 更新训练样本数据的权值分布，用于下一轮迭代，对于正确分类的训练样本“1 2 3 4 6 9 10”（共7个）的权值更新为：

这样，第1轮迭代后，最后得到各个样本数据新的权值分布：

$D_2$ =[1/14,1/14,1/14,1/14,1/6,1/14,1/6,1/6,1/14,1/14]

由于样本数据 “5 7 8” 被 $H_1(x)$ 分错了，所以它们的权值由之前的0.1增大到1/6；反之，其它数据皆被分正确，所以它们的权值皆由之前的0.1减小到1/14，下表给出了权值分布的变换情况：

可得分类函数： $f_1(x)= α_1H_1(x) = 0.4236H_1(x)$ 。此时，组合一个基本分类器 $sign(f_1(x))$ 作为强分类器在训练数据集上有3个误分类点（即5 7 8），此时强分类器的训练错误为：0.3

第二次迭代t=2：

在权值分布 $D_2$ 的情况下，再取三个弱分类器 $h_1$ 、 $h_2$ 和 $h_3$ 中误差率最小的分类器作为第2个基本分类器 $H_2(x)$ ：

①当取弱分类器 h1=X1=2.5时，此时被错分的样本点为“5 7 8”：
误差率e=1/6+1/6+1/6=3/6=1/2；

②　当取弱分类器h2=X1=8.5时，此时被错分的样本点为“3 4 6”：
误差率e=1/14+1/14+1/14=3/14；

③　当取弱分类器h3=X2=6.5时，此时被错分的样本点为“1 2 9”：
误差率e=1/14+1/14+1/14=3/14；

因此，取当前最小的分类器 $h_2$ 作为第2个基本分类器 $H_2(x)$

显然， $H_2(x)$ 把样本“3 4 6”分错了，根据 $D_2$ 可知它们的权值为 $D_2(3)=1/14$ ， $D_2(4)=1/14$ ，
$D_2(6)=1/14$ ，所以 $H_2(x)$ 在训练数据集上的误差率：

这样，第2轮迭代后，最后得到各个样本数据新的权值分布：

$D_3$ =[1/22,1/22,1/6,1/6,7/66,1/6,7/66,7/66,1/22,1/22]

下表给出了权值分布的变换情况：

可得分类函数： $f_2(x)=0.4236H_1(x) + 0.6496H_2(x)$ 。此时，组合两个基本分类器 $sign(f_2(x))$ 作为强分类器在训练数据集上有3个误分类点（即3 4 6），此时强分类器的训练错误为：0.3

第三次迭代t=3:

在权值分布 $D_3$ 的情况下，再取三个弱分类器 $h_1$ 、 $h_2$ 和 $h_3$ 中误差率最小的分类器作为第3个基本分类器 $H_3(x)$ ：

①当取弱分类器h1=X1=2.5时，此时被错分的样本点为“5 7 8”：
误差率e=7/66+7/66+7/66=7/22；

②当取弱分类器h2=X1=8.5时，此时被错分的样本点为“3 4 6”：
误差率e=1/6+1/6+1/6=1/2=0.5；

③当取弱分类器h3=X2=6.5时，此时被错分的样本点为“1 2 9”：
误差率e=1/22+1/22+1/22=3/22；