集成学习之AdaBoost

最新推荐文章于 2024-07-19 16:33:18 发布

weixin_43425490

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量138

点赞数

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43425490/article/details/120494373

版权

笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

参考资料：https://www.cnblogs.com/pinard/p/6133937.html
该资料比较详细，但是在推导部分有些难以理解。比如如何求得新的弱学习器的权重，让我有些费解，该部分在我参考了西瓜书后，在本博客我又做了补充说明。如有错误和有更好的解释方法，就恳请大家指正、提出。

代码实现参考

集成学习

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务。
需要解决的问题有：

如何构建这若干个学习器
如何选择多个学习器的结合策略

boosting

boosting算法的基本思想是多个弱学习器的迭代学习，当前弱学习器的训练依赖于一个弱学习器的训练结果。在前一轮弱学习器的学习中，被错分的样本将会提高权重，从而在本轮弱学习器的训练中被重视。

AdaBoost

AdaBoost是boosting最著名的算法之一。

算法过程

现假设目标为解决二分类问题。

假设训练集样本是：
$\mathbf T = \{(x_1,y_1), (x_2, y_2), ...(x_m, y_m)\}, \mathbf y \in\{-1, 1\}$

训练集在第 $k$ 个弱学习器的输出权重为：
$\mathbf w_{k} = (w_{k1},w_{k2},...w_{km}), w_{li} = \frac{1}{m}, i = 1,2 \dots m$

AdaBoost算法有以下任务：

第 $k$ 个弱分类器 $G_k(x)$ 在训练集上的加权误差率 $e_k$ 为：
$e_k = \sum_{i=1}^{m} w_{ki} \mathbb I(G_k(x_i) \neq y_i) = \sum_{i=1}^{m} w_{ki} e_{ki} \tag{1}$

相对误差 $e_k$ ：
$e_{ki} =\frac{|y_i - G_k(x_i)|}{E_k} \tag{2}$
对于第 $k$ 个弱学习器，计算他在训练集上的最大误差 $E_k$ ：
$E_k=\max |y_i−G_k(x_i)| \tag{3}$

另外有指数误差：
$e_{ki} = 1-\exp(\frac{-|y_i - G_k(x_i)|}{E_k})$

第 $k$ 个弱分类器 $G_k(x)$ 的权重系数 $a_k$ 为：
$a_k = \frac{1}{2}\log {\frac{1-e_k}{e_k}} \tag{4}$
第 $k + 1$ 个弱分类器的样本集权重系数为：
$w_{k+1, i} = \frac{w_{ki}}{Z_k} \exp (-a_k y_i G_k(x_i)), Z_k = \sum_{i=1}^{m} w_{ki} \exp (-a_k y_i G_k(x_i)) \tag{5}$
最终强学习器为：
$\mathrm{sign} (\sum_{k=1}^{K}a_kG_k(x)) \tag{6}$

下面就是最难懂的部分：
过程推导1
定义AdaBoost的损失函数为指数函数：
$(a_k,G_k) = \argmin_{a_k,G_k} \sum_{i=1}^{m} \exp( -y_i f_k(x_i))$

因为已经训练好了前 $k - 1$ 个弱学习器，所以上式可化为：
$(a_k,G_k) = \argmin_{a_k,G_k} \sum_{i=1}^{m} \exp( -y_i (f_{k-1}(x_i) + a_k G_k(x_i))) \tag{7}$

那么现在令 $w_{ki}' = \exp(-y_i f_{k-1}(x_i))$ , $w_{ki}'$ 是未作规范化处理的样本权重。
$(a_k,G_k)= \argmin_{a_k,G_k} \sum_{i=1}^{m} {w_{ki}'} \exp(-y_i a_k G_k(x_i)) \tag{8*}$

$\begin{aligned} \sum_{i=1}^{m} {w_{ki}'} \exp(-y_i a_k G_k(x_i))&= \sum_{G_k(x_i) = y_i} {w_{ki}'} e^{-a_k} + \sum_{G_k(x_i) \neq y_i} {w_{ki}}e^{a_k} \\ & = e^{-a_k} \sum_{i=1}^m w_{ki}' \mathbb I(y_i = G_k(x_i)) + e^{a_k} \sum_{i=1}^m w_{ki}' \mathbb I(y_i \neq G_k(x_i)) \\ &= e^{-a_k} \sum_{i=1}^m w_{ki}' + (e^{a_k}- e^{-a_k}) \sum_{i=1}^m w_{ki}' \mathbb I(y_i \neq G_k(x_i))\\ \tag{9*} \end{aligned}$

根据 (8)式，假设 $a_k$ 已知，那么对于找 $G_k$ 其实就是找在现有的样本的新权重下的最优弱学习器：
$G_k(x) = \argmin_{G_k} \sum_{i=1}^{m} w_{ki}' \mathbb I(G_k(x_i) \neq y_i) \tag{10*}$

对 (9*)式求 $a_k$ 的偏导:
$\frac {\partial (e^{-a_k} \sum_{i=1}^m w_{ki}' + (e^{a_k}- e^{-a_k}) \sum_{i=1}^m w_{ki}' \mathbb I(y_i \neq G_k(x_i))}{\partial {a_k}} = \\ -e^{-a_k} \sum_{i=1}^m w_{ki}' + (e^{a_k} + e^{-a_k}) \sum_{i=1}^m w_{ki}' \mathbb I(y_i \neq G_k(x_i)) \tag{11*}$

此时视 $w_{ki}'$ 为规范化后的权重，又有 $e_k$ 加权误差率（见 (1)式），令 (11*)式偏导等于0，两边同时取指数，可得(4)式 $a_k$ ：
$-e^{-a_k} \sum_{i=1}^m w_{ki}' + (e^{a_k} + e^{-a_k}) \sum_{i=1}^m w_{ki}' \mathbb I(y_i \neq G_k(x_i)) = 0\\ (e^{a_k} + e^{-a_k})e_k = e^{-a_k} \\ e^{a_k} e_k = e^{-a_k}(1 - e_k) \\ a_k + \ln e_k = -a_k + \ln(e_k-1)$

因为：
$f_k(x_i) = -y_i (f_{k-1}(x_i) + a_k G_k(x_i))$
$w_{ki} = \exp(-y_i f_{k-1}(x_i))$
所以，对于下一轮 $k + 1$ 轮的样本权重 $\mathbf w_{k+1}$
$\begin{aligned} w_{k+1,i}' &= \exp(-y_i (f_{k-1}(x_i) + a_kG_k(x_i)))\\ &=w_{ki}'\exp(−y_i α_k G_k(x_i)) \tag{12*} \end{aligned}$

最后，对 $w_{k+1,i}'$ 做规范化处理：
$w_{k+1, i} = \frac{w_{ki}} {Z_k}{\exp(−y_i α_k G_k(x_i))}$

以下是钻错的洞。不用太在意规范化因子的影响。
过程推导2
AdaBoost根据之前所有学习器的训练结果，生成第 $k$ 个弱学习器来补充前 $k - 1$ 个弱学习器。用前 $k - 1$ 个弱学习器训练出的各个样本的损失作为样本权重并做规范化处理，作为第 $k$ 个学习器的样本权重。
（理解为该样本损失越大，新的样本权重越大，并且需要保证所有样本的新权重之和为1）

那么现在令样本权重 $w_{ki} = \exp(-y_i f_{k-1}(x_i))/{Z_{k-1}}$ 。容易知道 $w_{ki}$ 不依赖于 $a_k, G_k$ ，只依赖于 $f_{k-1}(x)$ 。所以损失函数可化为：
$(a_k,G_k)= \argmin_{a_k,G_k} \sum_{i=1}^{m} {w_{ki}}{Z_{k-1}} \exp( -y_i a_k G_k(x_i))$

$Z_{k-1}$ 固定。所以损失函数可再化为：
$(a_k,G_k)= \argmin_{a_k,G_k} \sum_{i=1}^{m} {w_{ki}} \exp(-y_i a_k G_k(x_i)) \tag{8}$

$\begin{aligned} \sum_{i=1}^{m} {w_{ki}} \exp(-y_i a_k G_k(x_i))&= \sum_{G_k(x_i) = y_i} {w_{ki}} e^{-a_k} + \sum_{G_k(x_i) \neq y_i} {w_{ki}}e^{a_k}\\ & =e^{-a_k}(1-e_k) + e^{a_k} e_k \tag{9} \end{aligned}$

$e_k$ 已经是加权误差率（见 (1)式），所以可以直接得到 (9)式最后的结果。

根据 (8)式，假设 $a_k$ 已知，那么对于找 $G_k$ 其实就是找在现有的样本的新权重下的最优弱学习器：
$G_k(x) = \argmin_{G_k} \sum_{i=1}^{m} w_{ki} \mathbb I(G_k(x_i) \neq y_i) \tag{10}$

对 (9)式求 $a_k$ 的偏导:
$\frac {\partial (e^{-a}(1-e_k) + e^a e_k)}{\partial {a_k}} = -e^{-a_k}(1-e_k)+e^{a_k} e_k \tag{11}$
令 (11)式偏导等于0，两边同时取指数，可得(4)式 $a_k$

因为：
$f_k(x_i) = -y_i (f_{k-1}(x_i) + a_k G_k(x_i))$
$w_{ki} = \exp(-y_i f_{k-1}(x_i)) / {Z_{k-1}}$
所以，对于下一轮 $k + 1$ 轮的样本权重 $\mathbf w_{k+1}$
$\begin{aligned} w_{k+1,i} &= \frac{\exp(-y_i (f_{k-1}(x_i) + a_kG_k(x_i)))} {Z_k}\\ &=\frac {w_{ki} Z_{k-1}}{Z_k} \exp(−y_i α_k G_k(x_i)) \tag{12} \end{aligned}$