【李航统计学习笔记】第八章：adaboost

西风瘦马1912

于 2022-08-11 17:38:25 发布

阅读量278

点赞数

分类专栏：李航统计学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_39236489/article/details/126290043

版权

李航统计学习笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

8.1 Adaboost

Boosting提升方法

基本思路

将弱可学习算法是升为强可学习算法。
其中提升方法是集成学习的一种
集成学习两个主要类别:
- 序列方法
- 并行方法

Adaboost算法

解分类问题 $\in[-1,+1]$
在训练数据上训练得到模型，查看模型在整体数据和单个数据的分类效果
在整体数据上分类效果较好，则该模型在最后的模型中占较大比例，反之。
在单个数据上分类效果较好，那么在训练下一个模型时调小孩单个数
在上面过程迭代N次之后，直到最后的分类结果达到预期目标。将所有的模型组合，得到强可学习模型。

输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}_{1}$ 其中 $x_{i} \in$ $\subseteq R^{n}, y_{i} \in Y=\{-1,+1\}$ ; 弱学习算法;

输出: 最终分类器 $G_{(x)}$
(1) 初始化训练数据的权值分布
$D_{1}=\left(\omega_{11}, \cdots, \omega_{1 i}, \cdots \omega_{1 N}\right), \omega_{1 i}=\frac{1}{N}, i=1,2, \cdots, N$
(2) 对 $\cdots, M$
(2.1)使用具有权值分布 $\mathrm{D}_{m}$ 的训练数据集学习，得到基本分类器
$G_{m}(x): X \rightarrow\{-1,+1\}$
(2.2)计算 $G_{m}(x)$ 在训㤽数据集上的分类误差率 $e_{m}$
$e_{m}=\sum_{i=1}^{N} P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{N} \omega_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$
(2.3) 计算 $\mathrm{G}_{m}(x)$ 在训练数据集上的分类误差
$\alpha_{m}=\frac{1}{2} \log \frac{1-e_{m}}{e_{m}}$
这里的对数是自然对数
(2.4) 更新训练数据集的权值分布
$\begin{gathered} D_{m+1}=\left(\omega_{m+1,1}, \cdots, \omega_{m+1, i}, \cdots, \omega_{m+1, N}\right) \\ \omega_{m+1, i}=\frac{\omega_{m i}}{Z_{m}} \exp \left(-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right), \quad i=1,2, \cdots, N \end{gathered}$
这里， $Z_{m}$ 是规范化因子
$Z_{m}=\sum_{i=1}^{N} \omega_{m i} \exp \left(-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right)$
它使 $D_{m+1}$ 成为一个概率分布
(3)构建基本分类器的先行组合
$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$
得到最终分类器
$\begin{gathered} G(x)=\operatorname{sign}(f(x)) \\ =\operatorname{sign}\left(\sum_{m=1}^{M} \alpha_{m} G_{m}(x)\right) \end{gathered}$

提升树boosting tree

基本分类器：分类树或回归树

提左树模型：
$f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
前向分步算法:
$\begin{aligned} &f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right) \\ &\widehat{\Theta}_{m}=\arg \min \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+T\left(x_{i} ; \Theta_{m}\right)\right)\\ &f_{0}(x)=0 \\ &f_{1}(x)=f_{0}(x)+T\left(x ; \Theta_{1}\right) \\ &\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f_{1}\left(x_{i}\right)\right) \end{aligned}$
其中对于回归问题，一般为
$L\left(y_{i}, f_{1}\left(x_{i}\right)\right)=\frac{1}{2}(y-f(x))^{2}$

回归问题（平方误差损失）

算法8.3 (回忉问题的提升树方法)
输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y \subseteq \mathrm{R}_{i}$

输出: 提升树 $f_{M}(x)$
(1) 初始化 $f_{0}(x)=0$
(2) 对 $\cdots, M$
(2.1)计算残差:
$r_{m i}=y_{i}-f_{m-1}\left(x_{i}\right), \quad i=1,2, \cdots, N$
(2.2)拟合残差 $r_{m i}$ 学习―个回归树，得到 $T\left(x ; \Theta_{m}\right)$
(2.3) 更新 $f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$

(3) 得到回归问题是升树
$f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
至于拟合残差的原因:
对于任意的样本点y和拟合值 $f (x)$ 的损失
$\begin{aligned} & L[y, f(x)] \\ =& {[y-f(x)]^{2} } \end{aligned}$
在前项分布算法中
$\begin{aligned} f_{m}(x)=& {\left[y-f_{m-1}(x)-T\left(x ; \Theta_{m}\right)\right]^{2} } \\ =& {\left[\gamma_{m-1}-T\left(x ; \Theta_{m}\right)\right]^{2} } \\ =&L\left(\gamma_{m-1}, T\left(x ; \Theta_{m}\right)\right) \end{aligned}$

回归问题梯度提升：

算法8.4 (梯度提升算法)

输入: 训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}_{1}$ , 其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y \subseteq \mathrm{R}_{i}$ ;损失函数 $L (y, f (x))$

输出：回归树 $\hat{f}(x)$

(1)初始化
$f_{0}(x)=\arg \min _{c} \sum_{i=1}^{N} L\left(y_{i}, c\right)$
(2)对于 $\cdots, M$
(2.1) 对i $\cdots, N$ ,计算
$r_{m i}=-\left[\frac{\partial L\left(y_{i}, f\left(x_{i}\right)\right)}{\partial f\left(x_{i}\right)}\right]_{f(x)=f_{m-1}(x)}$
(2.2) 对 $r_{m i}$ 拟合拟合一个回归树，得到第棵树的叶节点区域 $\mathrm{R}_{m j}, j=1,2, \cdots, J$
(2.3) 对j $\cdots, J$ , 计箿
$c_{m j}=\arg \min _{c} \sum_{x_{i} \in R_{m j}} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+c\right)$
(2.4) 更新
$f_{m}(x)=f_{m-1}(x)+\sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$
(3) 得到回归树
$\hat{f}(x)=f_{M}(x)=\sum_{m=1}^{M} \sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$

总结

提升算法采用了多个弱模型结合达到一个强模型的效果
AdaBoost每次训练的分类器将重点关注于之前仍然被错分的样本。
以决策树为基函数的提升方法被称为提升树

8.2 前向分步部算法

前向分步算法

前向分步算去求解诣数函数为损佚函数的氻法模型与Adabost的关系结论: 两者是等价的
$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x), \quad G_{m}(x) \in[-1,+1]$
损失函数
$f(x))=\exp (-y f(x))$
假没经过m-1轮迭代，前向分步算刧已经得到
$f_{m-1}(x)=\sum_{j=1}^{m-1} \alpha_{j} G_{j}(x)$
那么
$\begin{aligned} f_{m}(x) &=f_{m-1}(x)+\alpha_{m} G_{m}(x) \\ \alpha_{m}, G_{m}(x) &=\arg \min _{\alpha, G} \sum_{i=1}^{N} \exp \left[-y_{i}\left(f_{m-1}\left(x_{i}\right)+\alpha G\left(x_{i}\right)\right)\right] \\ &=\arg \min _{\alpha, G} \sum_{i=1}^{N} \overline{\omega_{m i}} \exp \left[-y_{i} \alpha G\left(x_{i}\right)\right] \\ &=\arg \min _{\alpha, G} \sum_{i \in M_{1}} \overline{\omega_{m i}} \exp (-\alpha)+\arg \min _{\alpha, G} \sum_{i \in M_{2}} \overline{\omega_{m i}} \exp (\alpha) \end{aligned}$
其中 $M_{1}$ 是止确分类， $M_{2}$ 是错误分类
$\begin{aligned} \arg \min _{\alpha, G} & \sum_{i \in M_{1}} \overline{\omega_{m i}} \exp (-\alpha)+\arg \min _{\alpha, G} \sum_{i \in M_{2}} \overline{\omega_{m i}} \exp (-\alpha)+\\ & \arg \min _{\alpha, G} \sum_{i \in M_{2}} \overline{\omega_{m i}}(\exp (\alpha)-\exp (-\alpha)) \\ =& \exp (-\alpha) \sum_{i} \overline{\omega_{m i}}+[\exp (\alpha)-\exp (-\alpha)] \sum \overline{\omega_{m i}} I\left(y_{i} \neq G\left(x_{i}\right)\right) \end{aligned}$
得到G的最优解
$G_{m}^{*}=\operatorname{argmin} \sum_{i} \overline{\omega_{m i}} I\left(y_{i} \neq G\left(x_{i}\right)\right)$
接下来求 $\alpha$ 的最优解
$\begin{gathered} \alpha_{m}=\arg \min _{\alpha} \sum_{i} \overline{\omega m_{i}} \exp \left(-\alpha y_{i} G^{*}\left(x_{i}\right)\right) \\ =\sum_{i \in M_{1}} \overline{\omega_{m i}} \exp (-\alpha)+\sum_{i \in M_{2}} \overline{\omega_{m i}} \exp (\alpha) \\ =\left(e^{\alpha}-e^{-\alpha}\right) \sum \overline{\omega_{m i}} I\left(y_{i} \neq G\left(x_{i}\right)\right)+e^{-\alpha} \sum \overline{\omega_{m i}} \end{gathered}$
将得到的式子对 $\alpha$ 求导并使导数为 0 。即
$\left(e^{\alpha}+e^{-\alpha}\right) \sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)-e^{-\alpha} \bar{\omega}=0$
$\begin{gathered} e^{2 \alpha}=\frac{\sum \overline{\omega_{i}}}{\sum \overline{\omega_{i}} I\left(y_{i} \neq G\left(x_{i}\right)\right)}-1 \\ \alpha=\frac{1}{2} \ln \frac{\sum \overline{\omega_{i}}-\sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)}{\sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)} \\ =\frac{1}{2} \ln \frac{1-\frac{\sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)}{\sum \overline{\omega_{i}}}}{\frac{\sum \bar{\omega} I\left(y_{i} \neq G\left(x_{i}\right)\right)}{\sum \overline{\omega_{i}}}} \\ =\frac{1}{2} \ln \frac{1-e_{m}}{e_{m}} \end{gathered}$

$\begin{aligned} &\overline{\omega_{m i}}=\exp \left(-y_{i} f_{m-1}\left(x_{i}\right)\right) \\ &=\exp \left(-y_{i} \sum_{j=1}^{m-1} \alpha_{j} G_{j}(x)\right) \\ &=\prod_{j} \exp \left(-y_{i} \alpha_{j} G_{j}\left(x_{i}\right)\right) \end{aligned}$