【机器学习】提升方法AdaBoost算法

最新推荐文章于 2022-10-10 21:08:54 发布

Day-yong

最新推荐文章于 2022-10-10 21:08:54 发布

阅读量408

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Daycym/article/details/81915699

版权

机器学习专栏收录该内容

50 篇文章 47 订阅

订阅专栏

前言

此博客介绍了关于集成学习的相关知识，在学习 $AdaBoost$ 算法前，可以先了解下集成学习。

提升（Boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

提升方法基于这样一种思想：
对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的结论，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。

对于提升方法来说，有两个问题需要回答：

1、在每一轮如何改变训练数据的权重或概率分布
2、如何将弱分类器组合成一个强分类器

$AdaBoost$ 的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，在那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题被一系列的弱分类器“分而治之”。
至于第二个问题， $AdaBoost$ 采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

$AdaBoost$ 算法

输入：训练数据集 $T = \{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$ ，其中实例 $x_i \in \mathcal{X} \subseteq R^n$ ，标记为 $y_i \in \mathcal{Y} = \{-1,+1\}$ ；弱学习算法；
输出：最终分类器 $G(x)$ .

（1）初始化训练数据的权重分布

D 1 = (w 11, . . ., w 1 i, . . ., w 1 N) ， w 1 i = 1 N ， i = 1, 2, . . ., N

$D_1 = (w_{11},...,w_{1i},...,w_{1N})，w_{1i} = \frac{1}{N}，i = 1, 2,...,N$

假设训练数据集一开始具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同

（2）对 $m = 1, 2, 3,...,M$

$AdaBoost$ 反复学习基本分类器，迭代执行以下步骤

（a）使用具有权重分布 $D_m$ 的训练数据集学习，得到基本分类器
$G m (x) = X \to {- 1, + 1}$ $G_m(x) = \mathcal{X} \rightarrow \{-1,+1\}$

使用当前分布 $D_m$ 加权的训练数据集，学习基本分类器

（b）计算 $G_m(x)$ 在训练数据集上的分类误差率

$e m = \sum i = 1 N P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i)$ $e_m = \sum_{i=1}^N P\big(G_m(x_i) \neq y_i\big) = \sum_{i=1}^N w_{mi}I(G_m(x_i) \neq y_i)$
（c）计算 $G_m(x)$ 的系数

$α m = 1 2 l o g 1 - e m e m$ $\alpha_m = \frac{1}{2}log\frac{1-e_m}{e_m}$
这里的对数是自然对数

$\alpha_m$ 表示 $G_m(x)$ 在最终分类器中的重要性
当 $e_m \leqslant \frac{1}{2}$ 时， $\alpha_m \geqslant 0$ ，并且 $\alpha_m$ 随着 $e_m$ 的减小而增大，所以分类误差率减小的基本分类器在最终分类器中的作用越大。

（d）更新训练数据集的权重分布
$D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N) w m + 1, i = w m i Z m e x p (- α m y i G m (x i)), i = 1, 2, . . ., N$ $D_{m+1} = (w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N}) \\ w_{m+1,i} = \frac{w_{mi}}{Z_m}exp(-\alpha_m y_i G_m(x_i)), i = 1, 2, ... ,N$
这里， $Z_m$ 是规范化因子
$Z m = \sum i + 1 N w m i e x p (- α m y i G m (x i))$ $Z_m = \sum_{i+1}^N w_{mi}exp(-\alpha_m y_i G_m(x_i))$
它使 $D_{m+1}$ 成为一个概率分布

上面两个式子可以写成：

$w m + 1, i = ⎧ ⎩ ⎨ ⎪ ⎪ w m i Z m e - α m, G m (x) = y i w m i Z m e α m, G m (x) \neq y i$ $w_{m+1,i} = \begin{cases} \frac{w_{mi}}{Z_m}e^{-\alpha_m} ,\quad G_m(x) = y_i \\ \\ \frac{w_{mi}}{Z_m}e^{\alpha_m},\quad \ \ G_m(x) \neq y_i \end{cases}$
由此可见，被正确分类的样本的权值减小了，被错误分类的样本权值增大了
（3）构建基本分类器的线性组合
$f (x) = \sum m + 1 N α m G m (x)$ $f(x) = \sum_{m+1}^N\alpha_mG_m(x)$
得到最终分类器
$G (x) = s i g n (f (x)) = s i g n (\sum m + 1 N α m G m (x))$ $G(x) = sign(f(x)) = sign\big( \sum_{m+1}^N\alpha_mG_m(x)\big)$

线性组合 $f(x)$ 实现 $M$ 个基本分类器的加权表决，系数 $\alpha_m$ 表示了基本分类器 $G_m(x)$ 的重要性。

具体数据了解 $AdaBoost$ 算法

训练数据集如下表：

这里写图片描述

（1）初始化数据权值分布

D 1 = (w 11, w 12, . . ., w 110) w 1 i = 0.1, i = 1, 2, . . ., 10

$D_1 = (w_{11},w_{12},...,w_{110}) \\ w_{1i} = 0.1, i = 1,2,...,10$
（2）对

m=1 m = 1 $m = 1$ :

（a）在权值分布为 $D_1$ 的训练数据集上，阀值 $v$ 取2.5时分类误差率最低，故基本分类器为：

$G_{1} (x) = {\begin{cases} 1, x < 2.5 \\ - 1, x > 2.5 \end{cases}$ $G_1(x) = \begin{cases} 1, \quad x < 2.5 \\ \\ -1, \quad x>2.5 \end{cases}$
（b） $G_1(x)$ 在训练数据集上的误差率

$e 1 = P (G 1 (x) \neq y i) = 0.3$ $e_1 = P(G_1(x) \neq y_i) = 0.3$
（c）计算 $G_1(x)$ 的系数：

$α 1 = 1 2 l o g 1 - e 1 e 1 = 0.4236$ $\alpha_1 = \frac{1}{2}log\frac{1- e_1}{e_1} = 0.4236$
（d）更新训练数据集的权值分布

$D 2 = (w 21, w 22, . . ., w 210) w w i = w 1 i Z 1 e x p (- α 1 y i G 1 (x)), i = 1, 2, . . ., 10 D 2 = (0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.07143, 0.16667, 0.16667, 0.16667, 0.07143) f 1 (x) = 0.4236 G 1 (x)$ $D_2 = (w_{21},w_{22},...,w_{210}) \\ w_{wi} = \frac{w_{1i}}{Z_1}exp(-\alpha_1 y_iG_1(x)), i = 1, 2,...,10 \\ D_2 = (0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,0.16667,0.16667,0.16667,0.07143) \\ f_1(x) = 0.4236G_1(x)$
分类器 $sing[f_1(x)]$ 在训练数据集上有3个误分类点。

对 $m = 2$ :

（a）在权值分布为 $D_2$ 的训练数据集上，阀值 $v$ 取8.5时分类误差率最低，故基本分类器为：
$G_{2} (x) = {\begin{cases} 1, x < 8.5 \\ - 1, x > 8.5 \end{cases}$ $G_2(x) = \begin{cases} 1, \quad x < 8.5 \\ \\ -1, \quad x>8.5 \end{cases}$
此时，序号为4，5，6的分类错误
（b） $G_2(x)$ 在训练数据集上的误差率（将序号为4，5，6对应的w相加）：

$e 2 = 0.07143 + 0.07143 + 0.07143 = 0.2143$ $e_2 =0.07143 + 0.07143+0.07143 = 0.2143$
（c）计算 $G_2(x)$ 的系数： $\alpha_2 = 0.6496$
（d）更新训练数据集的权值分布

$D 3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667, 0.1667, 0.1667, 0.1667, 0.0455) f 2 (x) = 0.4236 G 1 (x) + 0.6496 G 2 (x)$ $D_3 = (0.0455,0.0455,0.0455,0.1667,0.1667,0.1667,\\ 0.1667,0.1667,0.1667,0.0455) \\ f_2(x) = 0.4236G_1(x) + 0.6496G_2(x)$
分类器 $sing[f_2(x)]$ 在训练数据集上有3个误分类点。

对 $m = 3$ :

（a）在权值分布为 $D_3$ 的训练数据集上，阀值 $v$ 取8.5时分类误差率最低，故基本分类器为：

$G_{3} (x) = {\begin{cases} 1, x < 5.5 \\ - 1, x > 5.5 \end{cases}$ $G_3(x) = \begin{cases} 1, \quad x < 5.5 \\ \\ -1, \quad x>5.5 \end{cases}$
（b） $G_3(x)$ 在训练数据集上的误差率： $e_3 = 0.1820$
（c）计算 $G_3(x)$ 的系数： $\alpha_3 = 0.7514$
（d）更新训练数据集的权值分布

$D 3 = (0.125, 0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.125) f 3 (x) = 0.4236 G 1 (x) + 0.6496 G 2 (x) + 0.7514 G 3 (x)$ $D_3 = (0.125,0.125,0.125,0.125,0.102,0.102,\\ 0.102,0.065,0.065,0.125) \\ f_3(x) = 0.4236G_1(x) + 0.6496G_2(x)+0.7514G_3(x)$

分类器 $sing[f_3(x)]$ 在训练数据集上有0个误分类点。

最终分类器为：

G (x) = s i g n [f 3 (x)] = s i g n [0.4236 G 1 (x) + 0.6496 G 2 (x) + 0.7514 G 3 (x)]

$G(x) = sign[f_3(x)] = sign[0.4236G_1(x) + 0.6496G_2(x)+0.7514G_3(x)]$

至此，我们介绍了 $AdaBoost$ 算法，并通过具体的数据了解了 $AdaBoost$ 算法的执行过程
在以上，我们可知道：

$D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N) w m + 1, i = w m i Z m e x p (- α m y i G m (x i)), i = 1, 2, . . ., N$ $D_{m+1} = (w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N}) \\ w_{m+1,i} = \frac{w_{mi}}{Z_m}exp(-\alpha_m y_i G_m(x_i)), i = 1, 2, ... ,N$
这是样本分布的更新公式
$α m = 1 2 l o g 1 - e m e m$ $\alpha_m = \frac{1}{2}log\frac{1-e_m}{e_m}$
这是分类器权重的更新公式
在后续更新的博客中，我们会用到这些公式，通过python3来实现 $AdaBoost$ 算法。