AdaBoost与指数损失

最新推荐文章于 2023-03-15 15:30:13 发布

十里清风

最新推荐文章于 2023-03-15 15:30:13 发布

阅读量2.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105932309

版权

机器学习专栏收录该内容

23 篇文章 7 订阅

订阅专栏

文章目录

集成学习综述
AdaBoost
AdaBoost理论推导
实例
Reference

集成学习综述

将多个不同算法、同一算法不同参数或不同数据集的弱模型组合为强模型.

以加性模型表示为
$H(\pmb x;\Theta)=\sum_{\tau}\alpha_{\tau}h(\pmb x;\theta_{\tau}),\quad\Theta=\arg\min_{{\alpha,\theta}}\Bbb E_{\mathcal D}[L(y,\sum_{\tau}\alpha_{\tau}h(\pmb x;\theta_{\tau}))]$
假设集成M个分类误差为 $\epsilon<0.5$ 且相互独立的弱模型，则集成分类器的误差率
$P(H(\pmb x)\neq f(\pmb x))=\sum_{m=0}^{M/2}\Bbb C_M^m(1-\epsilon)^m\epsilon^{M-m} \leq\exp\left(-\frac{1}{2}M(1-2\epsilon)^2\right)$
随着基分类器数量M的增大，集成分类器的误差以指数级下降.

Bagging

基模型无强依赖关系、可并行生成，一般为强模型，适合用于集成高方差低偏差的over-fitting模型（关注降低方差），如决策树模型所有样本均为叶结点时，错误率为0.

随机森林是典型的的bagging算法，使用cart决策树作为基模型，单个模型训练的样本集和特征集具有随机性，即：

随机地从样本集中有放回采样一定数量样本；
随机地从特征集选取一定数量特征，若 $d$ 为特征总数，一般采样 $log_2d$ 个特征；

Boosting

基模型存在强依赖关系、串行生成，新基模型是对之前总体模型的提升，基模型一般为正确率略优于随机猜测的弱模型.
根据之前迭代结果训练新基模型并更新总体模型，由于全局优化计算复杂，一般通过贪婪方法逐个求解最优基模型参数. Boosting的前向加性模型及求解方法为
$H_t(\pmb x)=H_{t-1}(\pmb x)+\alpha_th(\pmb x,\theta_t),\quad (\alpha_t,\theta_t)=\arg\min_{\alpha,\theta}\Bbb E_{\mathcal D_t}[L(y,H_{t-1}(\pmb x)+\alpha h(\pmb x;\theta))]$

CART

基模型一般使用CART决策树，模型表示为
$T(\pmb x;\Theta)=\sum_{j=1}^J\gamma_i\Bbb I(\pmb x\in R_j)$
其中 $R_j$ 和 $\gamma_j$ 分别为第 $j$ 个叶结点对应区域和结点输出值.

AdaBoost

自适应增强（Adaptive Boosting，AdaBoost）是Boosting算法簇的先祖，通过集成多个弱模型成为一个强模型。
$H(\boldsymbol x;\Theta)=\sum_{\tau}\alpha_{\tau}h(\boldsymbol x;\theta_{\tau})$
式中 $h_\tau$ 和 $\alpha_\tau$ 分别表示第 $\tau$ 次迭代所得基模型及其所占总体的权重。

AdaBoost算法属于前向分布算法的特例，AdaBoost的基本思想：

调整样本分布：根据新模型的表现调整样本分布，使下次基模型（弱学习器）的注意力集中在错分样本。
基模型权重：基模型集成到总体模型的权重与其训练误差成正比。
损失函数：对于回归问题使用均方差损失，则新模型的训练实际是拟合当前模型的残差（GBDT）；对于分类问题使用指数损失，新模型的训练实际是在调整后的分布上进行。

本文主要通过理论推导说明AdaBoost的学习过程，解释以下几个问题：

AdaBoost的学习过程为什么是通过不断调整样本分布进行的？
如何学习基模型？
如何设定基模型权重？

AdaBoost理论推导

用于二分类的AdaBoost算法等价于基于指数损失的前向加性模型是在算法提出后之后才发现，典型的思想在前理论证明在后的算法，以不断调整分布的方式学习基模型，恰好可通过最小化指数损失得到解释。
$H_t(\boldsymbol x)=H_{t-1}(\boldsymbol x)+\alpha_th_t(\boldsymbol x)$
令训练集样本分布表示为 $\mathcal D$ ，初始分布一般为均匀分布
$\mathcal D=(w_1,\cdots,w_m),\quad w_i=\frac{1}{m}$

对于二分类模型 $y=\pm 1$ ，基于最小化指数损失训练模型，则第 $t$ 步所得基模型 $h_t$ ，应使得之前所得总体模型 $H_{t-1}$ 集成 $h_t$ 后，能在原始样本分布上最小化指数损失，因此优化目标函数可表示为

$\begin{aligned} (\alpha_t,h_t) &=\arg\min_{\alpha,h}\Bbb E_{\mathcal D}[\exp(-y(H_{t-1}(\boldsymbol x)+\alpha h(\boldsymbol x)))]\\[1ex] &=\arg\min_{\alpha,h}\sum_iw_i\exp(-y_i(H_{t-1}(\boldsymbol x)))\cdot\exp(-\alpha y_ih(\boldsymbol x))\\ &=\arg\min_{\alpha,h}\sum_iw_i^{(t)}\exp(-\alpha y_ih(\boldsymbol x_i)) \end{aligned}$

其中可将 $w^{(t)}$ 视为第 $t$ 次迭代每个观测的权重
$w_i^{(t)}=w_i\exp(-y_iH_{t-1}(\boldsymbol x_i))$
样本权重计算公式等价于以下递推的形式
$\quad w_i^{(t+1)}=w_i^{(t)}\exp(-y_i\alpha_th_t(\boldsymbol x_i))$
实际计算过程中，样本分布也是通过迭代更新，这也解释了每次迭代完之后会调整样本分布的特性。

如何在第 $t$ 步训练基模型 $h_t$ ？

固定 $\alpha_t$ 并假定 $\alpha_t > 0$ ，则最优 $h_t$ 满足
$\begin{aligned} h_t &=\arg\min_h\sum_iw_i^{(t)}\exp(-y_ih(\boldsymbol x_i)) \approx\arg\min_h\sum_iw_i^{(t)}(1-y_ih(\boldsymbol x_i))\\ &=\argmax_h\Bbb E_{\mathcal D_t}[yh(\boldsymbol x)]\\ &=\arg\max_h[h(\boldsymbol x)P(y=1|\mathcal D_t) - h(\boldsymbol x)P(y=-1|\mathcal D_t)] \end{aligned}$
显然，最优解满足
$h(\boldsymbol x)= \begin{cases} 1,&P(y=1|\mathcal D_t) > P(y=-1|\mathcal D_t)\\ -1,&otherwise\\ \end{cases}$
因此，基模型（一般为CART决策树）的优化目标函数为
$h_t(\boldsymbol x)=\arg\min_h\sum_i w_i^{(t)}\Bbb I(y_i\neq h(\boldsymbol x_i)),\quad h_t(\boldsymbol x)\in\{-1,+1\}$

因此，基模型的学习就可以看作为在加权的样本集中训练CART二分类决策树。

如何计算第 $t$ 步基模型所占总体权重 $\alpha_t$ ？

固定 $h_t$ ，则最优 $\alpha_t$ 满足
$\alpha_t=\arg\min_{\alpha}\sum_iw_i^{(t)}\exp(-\alpha y_ih_t(\boldsymbol x_i))$

对上述求偏导令其为0，由于 $y\pm 1$ ，易得
$\alpha_t=\frac{1}{2}\ln\frac{1-\epsilon_t}{\epsilon_t},\quad \epsilon_t=\frac{\sum_iw_i^{(t)}\Bbb I(y_i\neq h_t(\boldsymbol x_i))}{\sum_iw_i^{(t)}}$

实例

给定训练数据如下表所示，假设弱分类器由 $x < v$ 或 $x > v$ 产生，其阈值 $v$ 是该分类器在训练集上分类误差率最低。

序号	1	2	3	4	5	6	7	8	9	10
$x$	0	1	2	3	4	5	6	7	8	9
$y$	1	1	1	-1	-1	-1	1	1	1	-1

解：初始化数据权值分布
$\mathcal D_1=(w_{11}, w_{12}, \cdots,w_{10}), \quad w_{1i}=0.1, \quad i=1,2,\cdots,10$
i. $m = 1$ ，训练弱学习器，计算基分类器权重，更新样本分布

阈值 $v = 2.5$ 时，基本分类器 $h_1(x)$ 分类误差最低，故
$h_1(x)= \begin{cases} 1, &x<2.5 \\ -1, &x > 2.5 \end{cases}$
$h_1(x)$ 在分布 $\mathcal D_1$ 上的分类误差率
$e_1=\sum_{i=1}^{10}e_{1i}\Bbb I(y_i\neq h_1(x))=0.3$
计算 $h_1$ 的权重系数
$\alpha_1=\frac{1}{2}\ln\frac{1-e_1}{e_1}=0.4236$
更新训练数据的权值分布
$\mathcal D_2=(w_{21}, \cdots, w_{2i}, \cdots,w_{2,10}), \quad w_{2i}=\frac{w_{1i}\cdot e^{-\alpha_1y_ih_1(x_i)}}{Z_1}, \quad i=1,2,\cdots,10$
则
$\mathcal D_2=(0.071, 0.071, 0.071, 0.071, 0.071, 0.071, 0.167, 0.167, 0.167, 0.071)$

ii. $m = 2$ ，训练弱学习器，计算基分类器权重，更新样本分布：

阈值 $v = 8.5$ 时，基本分类器 $h_2(x)$ 分类误差最低，故
$h_2(x)= \begin{cases} 1, &x<8.5 \\ -1, &x > 8.5 \end{cases}$
$h_2(x)$ 在分布 $\mathcal D_2$ 上的分类误差率
$e_2=\sum_{i=1}^{10}w_{2i}\Bbb I(y_i\neq h_2(x))=0.2143$
计算 $h_2$ 的权重系数
$\alpha_2=\frac{1}{2}\ln\frac{1-e_2}{e_2}=0.6496$
更新训练数据的权值分布，则
$\mathcal D_3=(0.046, 0.046, 0.046, 0.167, 0.167, 0.167, 0.106, 0.106, 0.106, 0.046)$

iii. $m = 3$ ，训练弱学习器，计算基分类器权重，更新样本分布

阈值 $v = 5.5$ 时，基本分类器 $h_3(x)$ 分类误差最低，故
$h_3(x)= \begin{cases} 1, &x<5.5 \\ -1, &x > 5.5 \end{cases}$
$h_3(x)$ 在分布 $\mathcal D_3$ 上的分类误差率
$e_3=\sum_{i=1}^{10}w_{3i}\Bbb I(y_i\neq h_3(x))=0.1820$
计算 $h_3$ 的权重系数
$\alpha_3=\frac{1}{2}\ln\frac{1-e_3}{e_3}=0.7514$
更新训练数据的权值分布，则
$\mathcal D_4=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125)$

IV. 构建强分类器
$\text{sign}[f_3(x)] = \text{sign}[0.4236h_1(x)+0.6496h_2(x)+0.7514h_3(x)]$

Reference

1.Boosting algorithm: AdaBoost
2.The Elements of Statistical Learning (Second Edition) (P341-345)

十里清风

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
AdaBoost与指数损失

自适应增强（Adaptive Boosting，AdaBoost）是Boosting算法簇的先祖，通过集成多个弱模型成为一个强模型。H(x;Θ)=∑τατh(x;θτ)H(\pmb x;\Theta)=\sum_{\tau}\alpha_{\tau}h(\pmb x;\theta_{\tau})H(xxx;Θ)=τ∑ατh(xxx;θτ)式中hτh_\tauhτ和ατ\alpha_...
复制链接

扫一扫