AdaBoost算法的推导以及误差分析

最新推荐文章于 2022-05-19 16:29:56 发布

qq_41802245

最新推荐文章于 2022-05-19 16:29:56 发布

阅读量767

点赞数 1

文章标签：机器学习 adaboost算法

本文链接：https://blog.csdn.net/qq_41802245/article/details/104569647

版权

本文利用向前分布算法详细推导AdaBoost算法。首先对向前分布向前分布算法进行的简单介绍。

向前分布算法

向前分布算法学习得到的是加法模型：
$f(x)=\sum_{m=1}^{M}\alpha_{m}G(x;\gamma_{m})$
其中, $G(x;\gamma_{m})$ 是基学习器， $\gamma_{m}$ 为基学习器参数， $\alpha_{m}$ 为基学习器的系数。
向前分步算法由前往后，逐步增加一个基学习器以及它的系数，去极小化下面的损失函数：
$min_{\gamma_{m},\alpha_{m}}~~\sum_{i=1}^{N}L(y_{i},\sum_{k=1}^{m-1}\alpha_{k}G(x_{i},\gamma_{k})+\alpha_{m}G(x_{i},\gamma_{m}))$
其中N是样本个数， $x_{i},y_{i})$ 是样本， $L (y, f (x))$ 是损失函数。
注意到给定样本数据集以及损失函数即可按照向前分布算法学习到一个加法模型

推导过程

当向前分步算法选择的是指数损失函数
$L (y, f (x)) = e x p (- y f (x))$
指数损失函数与分类错误率 $e r r$ 的关系：

$\begin{aligned} \sum_{i=1}^{N}L(y_{i},f(x_{i})) &=\sum_{i=1}^{N}exp(-y_{i}f(x_{i})) \\ & =\sum_{i=1}^{N}exp(-y_{i}f(x_{i}))I(y_{i}\neq f(x_{i}))+\sum_{i=1}^{N}exp(-y_{i}f(x_{i}))I(y_{i}= f(x_{i}))\\ &=\sum_{i=1}^{N}eI(y_{i}\neq f(x_{i}))+\sum_{i=1}^{N}e^{-1}~I(y_{i}= f(x_{i}))\\ &=\sum_{i=1}^{N}eI(y_{i}\neq f(x_{i}))+e^{-1}(N-\sum_{i=1}^{N}I(y_{i}\neq f(x_{i})))\\ &=(e-e^{-1})\sum_{i=1}^{N}I(y_{i}\neq f(x_{i}))+e^{-1}N\\ &=N(e-e^{-1})err+e^{-1}N \end{aligned}$
假设，m-1次迭代得到
$f_{m-1}(x)=\alpha_{1}G_{1}+\alpha_{2}G_{2}+....+\alpha_{m-1}G_{m-1}$
第 $m$ 次迭代得到的 $(\alpha_{m},G_{m})$ 由下式求得
$(\alpha_{m},G_{m})=argmin_{\alpha,G}\sum_{i=1}^{N}exp(-y_{i}(f_{m-1}(x_{i})+\alpha y_iG(x_{i})))$
令 $\bar{\omega}_{mi}=-y_{i}(f_{m-1}(x_{i}))$ , $\bar{\omega}_{mi}$ 与 $(\alpha,G)$ 无关，随着每轮迭代更新,于是有
$(\alpha_{m},G_{m})=argmin_{\alpha,G}\sum_{i=1}^{N}\bar{\omega}_{mi}exp(-\alpha y_iG(x_{i})))~~~~~~（*）$
对任意 $\alpha>0$ ,有
$\begin{aligned} \sum_{i=1}^{N}\bar{\omega}_{mi}exp(-\alpha y_iG(x_{i})) &=\sum_{i=1}^{N}\bar{\omega}_{mi}e^{\alpha}I(y_{i}\neq G(x_{i}))+\sum_{i=1}^{N}\bar{\omega}_{mi}e^{-\alpha}I(y_{i}=G(x_{i}))\\ &=\sum_{i=1}^{N}\bar{\omega}_{mi}e^{\alpha}I(y_{i}\neq G(x_{i}))+e^{-\alpha}(\sum_{i=1}^{N}\bar{\omega}_{mi}-\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))\\ &=e^{-\alpha}\sum_{i=1}^{N}\bar{\omega}_{mi}+(e^\alpha-e^{-\alpha})\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))~~~(**) \end{aligned}$
由 $(e^\alpha-e^{-\alpha})>0$ ，可知使 $(*)$ 式最小的 $G (x)$ 为
$G_{m}=arg~min_{G}\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))$
再继续求 $\alpha_{m}$ ，对 $(* *)$ 式关于 $\alpha$ 求导，并令其大于0，得到
$\alpha>\frac{1}{2}log \frac{1-err_{m}}{err_{m}}$
$err_{m}$ 为 $G_{m}$ 在数据集上的加权误差率，等于
$err_{m}=\frac{\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))}{\sum_{i=1}^{N}\bar{\omega}_{mi}}=\sum_{i=1}^{N}\omega_{mi}I(y_{i}\neq G(x_{i}))$

即当 $\alpha_{m}=\frac{1}{2}log \frac{1-err_{m}}{err_{m}}$ 时， $(* *)$ 取最小值。我们认弱分类器的误差率 $err_{m}$ 小于1/2，即优于随机猜测的结果,故 $\alpha_{m}>0$ 。
得到模型迭代结果
$f_{m}(x)=f_{m-1}(x)+\alpha_{m}G_{m}(x)$
简单总结一下整个算法的过程：
输入：训练数据集： ${(x_{i},y_{i})\}_{i=1,2,...,N}$ ， $x_{i}\in \chi \subseteq R^{n},y_{i}=\pm1$
损失函数： $L (y, f (x)) = e x p (- y f (x))$
1.初始化 $f_{0}(x)=0$ ；
2.计算权值 $\bar{\omega}_{mi}=exp(-y_{i}f_{m-1}(x_{i})),m\ge1,i=1,...,N$ ;
3.求基分类器 $G_{m}=arg~min_{G}\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))$ ;
4.求分类误差率： $err_{m}=\frac{\sum_{i=1}^{N}\bar{\omega}_{mi}I(y_{i}\neq G(x_{i}))}{\sum_{i=1}^{N}\bar{\omega}_{mi}}$ ;
5.求分类器系数： $\alpha_{m}=\frac{1}{2}log \frac{1-err_{m}}{err_{m}}$ ；
6.得到AdaBoost模型： $f_{m}(x)=f_{m-1}(x)+\alpha_{m}G_{m}(x)$

令 $\omega_{m+1i}=\frac{w_{mi}}{Z_{m}}exp(-\alpha_{m}y_{i}G_{m}(x_{i})),i=1,...,N$
$\omega_{1i}=\frac{1}{N},,i=1,...,N$
其中 $Z_{m}$ 是规范化因子
$Z_{m}=\sum_{i=1}^{N}\omega_{mi}exp(-\alpha_{m}y_{i}G_{m}(x_{i}))$
则对任意 $m\ge1$ ,有
$\omega_{mi}=\frac{\bar{\omega}_{mi}}{\sum_{i=1}^{N}\bar{\omega}_{mi}}$

即 $\omega_{mi}$ 和 $\bar{\omega}_{mi}$ 之间只相差一个规范化因子

$\begin{aligned} \frac{\bar{\omega}_{mi}}{\sum_{i=1}^{N}\bar{\omega}_{mi}} & =\frac{\frac{1}{N}\Pi_{k=1}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{\frac{1}{N}\sum_{i=1}^{N}\Pi_{k=1}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}~~~~~~~~~~~~~~~~~~(1)\\ &=\frac{\frac{1}{N}\Pi_{k=1}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{\sum_{i=1}^{N}\omega_{2i}Z_{1}\Pi_{k=2}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}~~~~~~~~~~~~(2)\\ &=\frac{\frac{1}{N}\Pi_{k=1}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{\sum_{i=1}^{N}\omega_{3i}Z_{1}Z_{2}\Pi_{k=3}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}~~~~~~~~(3)\\ &=......~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(4)\\ &=\frac{\frac{1}{N}\Pi_{k=1}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{Z_{1}Z_{2}...Z_{m-1}}~~~~~~~~~~~~~~~~~~~~~~~~~~~(5)\\ &=\frac{\omega_{2i}\Pi_{k=2}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{Z_{2}...Z_{m-1}}\\ &=\frac{\omega_{3i}\Pi_{k=3}^{m-1}exp(-y_{i}\alpha_{k}G_{k}(x_{i}))}{Z_{3}...Z_{m-1}}\\ &=...\\ &=\frac{\omega_{m-1i}exp(-y_{i}\alpha_{m-1}G_{m-1}(x_{i}))}{Z_{m-1}}\\ &=\omega_{mi} \end{aligned}$
即 $\bar{\omega}_{mi}$ 和 $\omega_{mi}$ 之间只相差一个规范化因子，对求 $G_{m}$ 无影响，故算法可以变为

输入：训练数据集： ${(x_{i},y_{i})\}_{i=1,2,...,N}$ ， $x_{i}\in \chi \subseteq R^{n},y_{i}=\pm1$
损失函数： $L (y, f (x)) = e x p (- y f (x))$
1.初始化 $f_{0}(x)=0$ ；
2.计算权值 $\omega_{mi}=\frac{\omega_{m-1,i}exp(\alpha_{m-1}y_{i}G_{m-1}(x_{i}))}{Z_{m-1}},m\ge1,i=1,...,N$ ;
3.求基分类器 $G_{m}=arg~min_{G}\sum_{i=1}^{N}\omega_{mi}I(y_{i}\neq G(x_{i}))$ ;
4.求分类误差率： $err_{m}=\sum_{i=1}^{N}\omega_{mi}I(y_{i}\neq G(x_{i}))$ ;
5.求分类器系数： $\alpha_{m}=\frac{1}{2}log \frac{1-err_{m}}{err_{m}}$ ；
6.得到AdaBoost模型： $f_{m}(x)=f_{m-1}(x)+\alpha_{m}G_{m}(x)$

误差分析

AdaBoost的分类误差：
$\frac{1}{N}\sum_{i=1}^{N}I(f(x_{i})\neq y_{i})\le exp(-2\sum_{m=1}^M\gamma_{m}^2)$
其中 $\gamma_{m}=\frac{1}{2}-e_{m}，f(x)=\sum_{k=1}^{m}\alpha_{k}G_{k}(x)$
证明：
首先证明 $\frac{1}{N}\sum_{i=1}^{N}I(f(x_{i})\neq y_{i})\le \Pi_{k=1}^{m}Z_{k}$
当 $y_{i}=f(x_{i})$ 时
$I(f(x_{i})\neq y_{i})=0\le exp(-y_{i}f(x_{i}))$
当 $y_{i}\neq f(x_{i})$ 时
$I(f(x_{i})\neq y_{i})= exp(-y_{i}f(x_{i}))=1$

故
$\frac{1}{N}\sum_{i=1}^{N}I(f(x_{i})\neq y_{i})\le\frac{1}{N}\sum_{i=1}^{N}exp(-y_{i}f(x_{i}))$
又由式 $(1) (2) (3) (4) (5)$ 可知
$\frac{1}{N}\sum_{i=1}^{N}exp(-y_{i}f(x_{i}))=\Pi_{k=1}^{m}Z_{k}$
其次证明： $\Pi_{k=1}^{m}Z_{k}\le exp(-2\sum_{k=1}^{m}\gamma_{k}^2)$
$\forall k,1\le k\le m$ ，有
$\begin{aligned} Z_{k} & =\sum_{j=1}^{k}\omega_{ki}exp(-\alpha_{k}y_{i}G_{k}(x_{i}))\\ &=\sum_{G_{k}(x_{i})=y_{i}}\omega_{ki}e^{-\alpha_{k}}+\sum_{G_{k}(x_{i})\neq y_{i}}\omega_{ki}e^{\alpha_{k}}\\ &=(1-e_{k})e^{-\alpha_{k}}+e_{k}e^{\alpha_{k}}\\ &=2(e_{k}(1-e_{k}))^{\frac{1}{2}}\\ &=(1-4\gamma_{k}^2)^{\frac{1}{2}} \end{aligned}$
于是
$\Pi_{k=1}^{m}Z_{k}=\Pi_{k=1}^{m}(1-4\gamma_{k}^2)^{\frac{1}{2}}$
对 $\forall k,1\le k\le m$ ，只需证明
$(1-4\gamma_{k}^2)^{\frac{1}{2}}\le exp(-2\gamma_{k}^{2})~~~~~~~~~~~(*)$
即有

$\Pi_{k=1}^{m}Z_{k}=\Pi_{k=1}^{m}(1-4\gamma_{k}^2)^{\frac{1}{2}}\le exp(-2\sum_{k=1}^{m}\gamma_{k}^2)$
对 $(*)$ 式两边加对数，得
$\frac{1}{2}ln(1-4\gamma_{k}^2)\le -2\gamma_{k}^{2}$
对 $ln(1-4\gamma_{k}^2)$ 进行泰勒展开，得
$ln(1-4\gamma_{k}^2)=-4\gamma_{k}^2-\frac{(-4\gamma_{k}^2)^2}{2}+\frac{(-4\gamma_{k}^2)^3}{3}-...-\frac{4\gamma_{k}^2}{n}-...$
故有