机器学习——提升方法Adaboost算法

最新推荐文章于 2022-03-02 20:56:54 发布

macan_dct

最新推荐文章于 2022-03-02 20:56:54 发布

阅读量246

点赞数 1

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42211626/article/details/103337805

版权

机器学习算法专栏收录该内容

18 篇文章 3 订阅

订阅专栏

机器学习——提升方法Adaboost算法

前言

注：该文大部分来自于李航的《统计学习》，此篇可理解为个人笔记。

提升方法的基本思路

简单来说就是“三各臭皮匠顶一个诸葛亮”的道理。

对于分类任务而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比精确非分类规则（强分类器）容易的多。提升方法就是从弱学习算法出发，反复学习，得到一些列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器。

Adaboost算法

先给出算法的定义，再给出实例，最后给出代码实现。

假设给定一个二分类的训练数据集，共有N个样本， $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ 。

每个样本点由实例和标记组成，实例 $x_{i}\in \chi \sqsubseteq R^{n}$ ，标记为 $y_{i}\in \gamma \sqsubseteq \{-1,+1\}$ ， $\chi 是实例空间，\gamma 是标记集合$ 。

Adaboost利用以下算法，训练数据中学习一些列弱分类器或基本分类器，并将这些弱分类器线性组合成为一个强分类器。

算法：

输入：孙联数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}，其中x_{i}\in \chi \sqsubseteq R^{n}$ ，标记为 $y_{i}\in \gamma \sqsubseteq \{-1,+1\}$ ;弱学习算法（感知机、树等）
输出：最终分类器G(x)

（1）初始化训练数据的权值分布
$D_{1}=(w_{11},...,w_{1i},...,w_{1N}),w_{1i}=\frac{1}{N},i = 1,2,...,N\tag{1}$
（2）对于m= 1,2,…,M
------(a)使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器
$G_{m}(x):\chi \rightarrow{-1,+1}$
------(b)计算 $G_{m}(x)$ 在训练数据集上的分类误差率
$e_{m}=P(G_{m}(x_{i})\neq y_{i})=\sum_{i=1}^{N}w_{mi}I(G_{m}(x_{i}\neq y_{i}))\tag{2}$
注： $\sum_{i=1}^{N}w_{mi}=1$
------©计算G_{m}的系数
$\alpha_{m}=\frac{1}{2}log\frac{1-e_{m}}{e_{m}}\tag{3}$ (log为自然对数)
------(d)更新训练数据集的权值分布
$D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...w_{m+1,N})$
$w_{m+1,i} = \frac{w_{mi}}{Z_{m}}exp(-\alpha_{m}y_{i}G_{m}(x_{i})),i= 1,2,...,N\tag{4}$
这里 $Z_{m}$ 是规范化因子
$Z_{m}=\sum_{i=1}^{N}w_{mi}exp(-\alpha _{m}y_{i}G_{m}(x_{i}))\tag{5}$
它使 $D_{m+1}$ 成为一个概率分布。
------(e)构建基分类器的线性组合
$\sum_{m=1}^{M}\alpha _{m}G_{m}(x)\tag{6}$
得到最终分类器
$G(x)=sign(f(x))=sign(\sum_{m=1}^{M}\alpha _{m}G_{m}(x))\tag{7}$
------------------------------------------------------------------------------------------------------------------------------------
下面是推导过程：
构建的线性组合分类器为：
$f(x)=\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$
最终分类器是在线性组合的基础上进行Sign函数转换：
$G(x)=sign(f(x))=sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)]$
G这个分类器在训练的过程中，是为了让误差率最小，所以可以认为G越小其实就是误差率越小
$G^{*}_{m}=\frac{1}{n}\sum_{i=1}^{n}\overset{-}{w_{mi}}I(y_{i} \neq G_{m}),\varepsilon_{m}=P(G_{m}(x)\neq y)=\frac{1}{n}\sum_{i=1}^{n}\overset{-}{w_{mi}}I(y_{i} \neq G_{m}(x_{i}))$
损失函数：
$\frac{1}{n}\sum_{i=1}^{n}I(G(x_{i})\neq y_{i}))$
$\frac{1}{n}\sum_{i=1}^{n}I(G(x_{i})\neq y_{i}) \leq \frac {1}{n}\sum_{i=1}^{n}e^{-y_{i}f(x_{i})}\tag{8}$
假设第k-1轮的强学习器：
$f_{k-1}(x)=\sum_{j=1}^{k-1}\alpha_{j}G_{j}(x)$
第k轮的强学习器：
$f_{k}(x)=\sum_{j=1}^{k}\alpha _{j}G_{j}(x),f_{k}(x)=f_{k-1}(x)+\alpha_{k}G_{k}(x)$
将上式带入到损失函数(8)中：
$loss(\alpha_{m},G(_{m}(x))) = \frac{1}{n}\sum_{i=1}^{n}e^{-y_{i}(f_{m-1}(x)+\alpha_{m}G_{m}(x))}$
那么此时的目标函数为：
$\underset{min}{arg}\frac{1}{n}\sum_{i=1}^{n}e^{-y_{i}(f_{m-1}(x_{i})+\alpha_{m}G_{m}(x))}$
化简上式：
$\underset{min}{arg}\frac{1}{n}\sum_{i=1}^{n}e^{-y_{i}(f_{m-1}(x_{i})+\alpha_{m}G_{m}(x))}\\=\underset{min}{arg}\frac{1}{n}\sum_{i=1}^{n}e^{-y_{i}f_{m-1}}*e^{-y_{i}\alpha_{m}G_{m}(x)}\\=\underset{min}{arg}\frac{1}{n}\sum_{i=1}^{n}w_{mi}*e^{-y_{i}\alpha_{m}G_{m}(x)},w_{mi} = e^{-y_{i}f_{m-1}}$
这里把目标函数简记为：
$J(\alpha)=\overset{-}{w}e^{-y\alpha G}=\frac{1}{n}\sum_{y_{i}=G_{m}(x_{i})} \overset{-}{w}e^{-\alpha}+\frac{1}{n}\sum_{y_{i}\neq G_{m}(x_{i})} \overset{-}{w}e^{\alpha}\\+\frac{1}{n}\sum_{y_{i}\neq G_{m}(x_{i})} \overset{-}{w}e^{-\alpha}-\frac{1}{n}\sum_{y_{i}\neq G_{m}(x_{i})} \overset{-}{w}e^{-\alpha}\\=\frac{1}{n}\sum_{i=1}^{n}\overset{-}{w}e^{-\alpha}+\frac{1}{n}\varepsilon e^{\alpha}-\frac{1}{n}\varepsilon e^{-\alpha}\\=\frac{1}{n}(\sum_{i=1}^{n}\overset{-}{w}e^{-\alpha} + \varepsilon e^{\alpha} - \varepsilon e^{-\alpha})$
使用梯度下降来求解上式的最小值:
$\frac{\partial J(\alpha)}{\partial \alpha}=\frac{1}{n}(-\sum_{i=1}^{n}\overset{-}{w}e^{-\alpha}+\varepsilon e^{\alpha}+\varepsilon e^{-\alpha})=0$
解上式：
$\alpha^{*}_{m}=\frac{1}{2}ln(\frac{1-e_{m}}{e_{m}})$

证毕
---------------------------------------------------------------------------------------------------------
上述的Adaboost算法应掌握以下几点：

在步骤1中假设数据集具有均匀的权值分布，是为了保证在第一步能够在原始数据上学习基本分类器 $G_{1}(x)$ 。
Adaboost算法中的c步计算基分类器 $G_{m}$ 的系数 $\alpha_{m}$ 。 $\alpha_{m}$ 表示 $G_{m}(x)$ 在最终分类器中的重要性。当 $e_{m}\leq \frac{1}{2}$ 时， $\alpha_{m}\geq0$ ，并且 $\alpha_{m}$ 随着 $e_{m}$ 的减小而增大，所以分类误差越小的基分类器在最终分类器中的作用越大。
更新训练数据的权值分布为下一轮做准备，式（4）可以写成：
$w_{m+1,i}=\left\{\begin{matrix} \frac{w_{mi}}{Z_{M}}e^{-\alpha_{m}}&G_{m}(x_{i})=y_{i} \\ \frac{w_{mi}}{Z_{M}}e^{\alpha_{m}} & G_{m}(x_{i})\neq y_{i} \end{matrix}\right.$
由此可知，被基分类器 $G_{m}(x)$ 误分类样本的权重值得以扩大，而被正确分类样本的权值得以缩小。两相比较，误分类样本的权值得以扩大 $e^{2\alpha_{m}}=\frac{e_{m}}{1-e_{m}}$ 倍。因此误分类样本在下一轮学习中起更大的作用。不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用

Adaboost算法三大特点总结：

分类误差率越小的基分类器在最终分类器中的作用越大
被误分类的样本会得到更大的权重
基分类器线性组合构建最终的分类器

Adaboost例子

由于李航的《统计学习方法》上的示例已经是很详细了，这里直接截图。
在这里插入图片描述

macan_dct

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——提升方法Adaboost算法

机器学习——提升方法Adaboost算法前言提升方法的基本思路Adaboost算法Adaboost例子前言注：该文大部分来自于李航的《统计学习》，此篇可理解为个人笔记。提升方法的基本思路简单来说就是“三各臭皮匠顶一个诸葛亮”的道理。对于分类任务而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比精确非分类规则（强分类器）容易的多。提升方法就是从弱学习算法出发，反复学习，得到一些...
复制链接

扫一扫

专栏目录