机器学习——多模型选择和融合的方法2(AdaBoost)

最新推荐文章于 2024-05-21 16:07:28 发布

daocaoren_

最新推荐文章于 2024-05-21 16:07:28 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/daocaoren_/article/details/100580547

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Adaptive Boost(AdaBoost)是一种融合模型，而与Blending不同的是，Blending是在得到 $g_t$ 之后再进行融合，而AdaBoost是一边学习 $g_t$ ，一边融合。那么在介绍AdaBoost之前，首先要看的一个算法模型——前向分步算法。

那么，什么是前向分步算法？
首先，考虑如下形式的加法模型，
${\rm{f}}(x) = \sum\limits_{m = 1}^M {{\beta _m}b(x;{\gamma _m})}$
其中 $b(x;{\gamma _m})$ 是基函数， ${\gamma _m}$ 是基函数的参数， ${\beta _m}$ 是基函数的系数。

显然，函数f(x)是基函数的线性组合，是一个加法模型。
那么，在给定数据集D和损失函数 $L (y, f (x))$ 的条件下，学习加法模型就变成了极小化损失函数的问题，
$\mathop {\min }\limits_{{\beta _m},{\gamma _m}} \sum\limits_{i = 1}^N {L({y_i},\sum\limits_{m = 1}^M {{\beta _m}b({x_i};\gamma {}_m)} )}$

解决上述问题的一个思路就是前向分步算法，其具体的想法为：因为学习算法为加法模型，如果能从前往后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式(上式)，那么就可以简化优化的复杂度。
具体的，每一步只需要优化如下的损失函数，
$\mathop {\min }\limits_{\beta ,\gamma } \sum\limits_{i = 1}^N {L({y_i},b({x_i};\gamma ))}$
具体的前向分布算法如下：

前向分步算法
输入：训练数据集 $\{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}$ ；损失函数为 $L (y, f (x))$ ；基函数集为 $\{ b(x;\gamma )\}$ ；输出：加法模型f(x) 1.初始化 ${f_0}(x) = 0$ 2.对 $\cdots ,M$ 2.1 极小化损失函数 $({\beta _m},{\gamma _m}) = \arg \mathop {\min }\limits_{\beta ,\gamma } \sum\limits_{i = 1}^N {L({y_i},{f_{m - 1}}({x_i}) + \beta b(x;\gamma ))}$ 2.2 更新 ${f_m}(x) = {f_{m - 1}}(x) + {\beta _m}b(x;{\gamma _m})$ 3.得到加法模型 ${f_M}(x) = \sum\limits_{m = 0}^M {{\beta _m}b(x;{\gamma _m})}$

前向分步算法

输入：训练数据集

\{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}

；损失函数为

L (y, f (x))

；基函数集为

\{ b(x;\gamma )\}

；
输出：加法模型f(x)
1.初始化

{f_0}(x) = 0

2.对

\cdots ,M

2.1 极小化损失函数

({\beta _m},{\gamma _m}) = \arg \mathop {\min }\limits_{\beta ,\gamma } \sum\limits_{i = 1}^N {L({y_i},{f_{m - 1}}({x_i}) + \beta b(x;\gamma ))}

2.2 更新

{f_m}(x) = {f_{m - 1}}(x) + {\beta _m}b(x;{\gamma _m})

3.得到加法模型

{f_M}(x) = \sum\limits_{m = 0}^M {{\beta _m}b(x;{\gamma _m})}

前向分步算法将同时求解从m=1到M的所有参数 ${\beta _m},{\gamma _m}$ 的优化问题简化为逐步求解各个 ${\beta _m},{\gamma _m}$ 的优化问题。

上述就是前向分步算法的主要思想，而AdaBoost就是前向分布算法的一个特例，因为在AdaBoost里，基函数为基本分类器，损失函数为指数损失函数。下面，就基于前向分步算法来推导AdaBoost。

当基函数为基本分类器时，前向分布算法中的加法模型等价于AdaBoost的最终分类器，
$\sum\limits_{m = 1}^M {{\alpha _m}{G_m}(x)}$
其中， ${G_m}(x)$ 为基本分类器， ${\alpha _m}$ 为基本分类器的系数。

当前向分布算法的损失函数为指数损失函数时，
$\exp ( - yf(x))$

由前向分步算法，在经过了m轮迭代后，有，
${f_m}(x) = {f_{m - 1}}(x) + {\alpha _m}{G_m}(x)$

求解目标是让求得的 ${\alpha _m}$ 和 ${G_m}(x)$ 使 ${f_m}(x)$ 在训练数据集T上的指数损失最小，即，
$\begin{array}{l} ({\alpha _m},{G_m}(x)) = \arg \mathop {\min }\limits_{\alpha ,G} \sum\limits_{i = 1}^N {\exp ( - {y_i}({f_{m - 1}}({x_i}) + \alpha G({x_i})))} \\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} = \arg \mathop {\min }\limits_{\alpha ,G} \sum\limits_{i = 1}^N {\underbrace {\exp ( - {y_i}{f_{m - 1}}({x_i}))}_{{{\bar w}_{mi}}}\exp ( - {y_i}\alpha G({x_i})))} \\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} = \arg \mathop {\min }\limits_{\alpha ,G} \sum\limits_{i = 1}^N {{{\bar w}_{mi}}\exp ( - {y_i}\alpha G({x_i})))} \end{array}$

其中， ${\bar w_{mi}} = \exp ( - {y_i}{f_{m - 1}}({x_i}))$ ，之所以把该项单独分出来，是因为该项既不依赖于 $\alpha$ ，也不依赖于 $G$ ，与最小化无关，但其依赖于 ${f_{m - 1}}(x)$ ，随着每一轮的迭代而改变。
上式中优化的参数有两个 $\alpha$ 和 $G$ ，所以求解也分为两步，先求解 $G$ ，再求解 $\alpha$ 。
首先，求解G，G的含义为基本分类器，所以可由在训练集上最小化损失得到，
${G_m}(x) = \arg \mathop {\min }\limits_G \sum\limits_{i = 1}^N {{{\bar w}_{mi}}\left[\kern-0.15em\left[ {{y_i} \ne G({x_i})} \right]\kern-0.15em\right]}$
之后，求解 ${\alpha _m}$ ，对式 $({\alpha _m},{G_m}(x))$ 进行简化，
$\begin{array}{l} \;\;\;\;\;\sum\limits_{i = 1}^N {{{\bar w}_{mi}}\exp ( - {y_i}\alpha G({x_i})))} \\\\ {\kern 1pt} = \sum\limits_{i = 1}^N {{{\bar w}_{mi}}\exp ( - {y_i}\alpha G({x_i})))} \\\\ = \sum\limits_{{y_i} \ne {G_m}({x_i})} {{{\bar w}_{mi}}{e^{ - \alpha }}} + \sum\limits_{{y_i} = {G_m}({x_i})} {{{\bar w}_{mi}}{e^\alpha }} \\\\ = ({e^\alpha } + {e^{ - \alpha }})\sum\limits_{i = 1}^N {{{\bar w}_{mi}}\left[\kern-0.15em\left[ {{y_i} \ne G({x_i})} \right]\kern-0.15em\right]} + {e^\alpha }\sum\limits_{i = 1}^N {{{\bar w}_{mi}}} \end{array}$

对 $\alpha$ 求导并等于0，得到最优解 $\alpha$ ，其中目标函数 $H(\alpha ) = ({e^\alpha } + {e^{ - \alpha }})\sum\limits_{i = 1}^N {{{\bar w}_{mi}}\left[\kern-0.15em\left[ {{y_i} \ne G({x_i})} \right]\kern-0.15em\right]} + {e^\alpha }\sum\limits_{i = 1}^N {{{\bar w}_{mi}}}$ ，为了方便书写，这里的 $\left[\kern-0.15em\left[ {{y_i} \ne G({x_i})} \right]\kern-0.15em\right]$ 用 $I$ 代替，
$\begin{array}{l} \frac{{\partial H}}{{\partial \alpha }} = {e^\alpha }\sum {{{\bar w}_{mi}}I} + {e^{ - \alpha }}\sum {{{\bar w}_{mi}}I} - {e^{ - \alpha }}\sum {{{\bar w}_{mi}}} = 0\\\\ {e^\alpha }\sum {{{\bar w}_{mi}}I} = {e^{ - \alpha }}(\sum {{{\bar w}_{mi}}} - \sum {{{\bar w}_{mi}}I} )\\\\ \alpha + \ln \sum {{{\bar w}_{mi}}I} = - \alpha + \ln (\sum {{{\bar w}_{mi}}} - \sum {{{\bar w}_{mi}}I} )\\\\ 2\alpha = \ln (\frac{{\sum {{{\bar w}_{mi}}} - \sum {{{\bar w}_{mi}}I} }}{{\sum {{{\bar w}_{mi}}I} }})\\\\ \alpha = \frac{1}{2}\ln (\frac{{\sum {{{\bar w}_{mi}}} }}{{\sum {{{\bar w}_{mi}}I} }} - 1) \end{array}$
一般，令 ${e_m} = \frac{{\sum\limits_{i = 1}^N {{{\bar w}_{mi}}I} }}{{\sum\limits_{i = 1}^N {{{\bar w}_{mi}}} }} = \frac{{\sum\limits_{i = 1}^N {{{\bar w}_{mi}}\left[\kern-0.15em\left[ {{y_i} \ne {G_m}({x_i})} \right]\kern-0.15em\right]} }}{{\sum\limits_{i = 1}^N {{{\bar w}_{mi}}} }}$ ，则 $\alpha$ 为，
${\alpha _m} = \frac{1}{2}\ln (\frac{{1 - {e_m}}}{{{e_m}}})$

最后，再来看一下每一轮样本权值的更新，因为 ${\bar w_{mi}} = \exp ( - {y_i}{f_{m - 1}}({x_i}))$ ，所以在第m+1轮有，
$\begin{array}{l} {{\bar w}_{m + 1,i}} = \exp ( - {y_i}{f_m}({x_i}))\\\\ \;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \exp ( - {y_i}({f_{m - 1}}({x_i}) + {\alpha _m}{G_m}({x_i})))\\\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;\;\;\;\;\;\;\;\; = {\kern 1pt} {{\bar w}_{mi}}\exp ( - {y_i}{\alpha _m}{G_m}({x_i})) \end{array}$
这里如果对 ${\bar w_{mi}}$ 规范化，即，使得 $\sum\limits_{i = 1}^N {{w_{mi}} = 1}$ ，则有，
${w_{mi}} = \frac{{{{\bar w}_{mi}}}}{{\sum\limits_{i = 1}^N {{{\bar w}_{mi}}} }}$
那么，第m+1轮规范化后的样本权值为，
${w_{m + 1,i}} = \frac{{{w_{mi}}}}{{{Z_m}}}\exp ( - {y_i}{\alpha _m}{G_m}({x_i}))$
其中 ${Z_m} = \sum\limits_{i = 1}^N {{w_{mi}}\exp ( - {y_i}{\alpha _m}{G_m}({x_i}))}$ 。

以上就是，AdaBoost算法的推导，那么写成算法形式为，

AdaBoost
输入：训练数据集 $\{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}$ ；其中 ${x_i} \in \chi \subseteq {R^n},{y_i} \in Y = \{ - 1, + 1\}$ ；弱学习算法 ${G_m}(x)$ 输出：最终分类器G(x) 1.初始化训练数据的权值分布 ${D_1} = ({w_{11}},{w_{12}}, \cdots ,{w_{1i}}, \cdots ,{w_{1N}}),\;\;\;\;\;{w_{1i}} = \frac{1}{N},i = 1,2, \cdots ,N$ 2.对 $\cdots ,M$ 2.1 使用具有权值分布 ${D_m}$ 的训练数据集学习，得到基分类器 ${G_m}(x):\chi \to \{ - 1, + 1\}$ 2.2 计算 ${G_m}(x)$ 在训练集上的分类误差率 ${e_m} = \sum\limits_{i = 1}^N {{w_{mi}}\left[\kern-0.15em\left[ {{G_m}({x_i}) \ne {y_i}} \right]\kern-0.15em\right]}$ 2.3 计算 ${G_m}(x)$ 的系数 ${\alpha _m} = \frac{1}{2}\ln (\frac{{1 - {e_m}}}{{{e_m}}})$ 2.4 更新数据集的权值分布 $\begin{array}{l}{D_{m + 1}} = ({w_{m + 1,1}}, \cdots ,{w_{m + 1,i}}, \cdots ,{w_{m + 1,N}})\\\\{w_{m + 1,i}} = \frac{{{w_{mi}}}}{{{Z_m}}}\exp ( - {\alpha _m}{y_i}{G_m}({x_i})),i = 1,2, \cdots ,N\end{array}$ 其中， ${Z_m}$ 是规范化因子， ${Z_m} = \sum\limits_{i = 1}^N {{w_{mi}}\exp ( - {\alpha _m}{y_i}{G_m}({x_i}))}$ 它使 ${D_{m + 1}}$ 成为了一个概率分布，即， $\sum\limits_{i = 1}^N {{w_{mi}} = 1}$ 。 3.得到最终的分类器 $sign(\sum\limits_{m = 1}^M {{\alpha _m}{G_m}(x)} )$

AdaBoost

输入：训练数据集

\{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}

；其中

{x_i} \in \chi \subseteq {R^n},{y_i} \in Y = \{ - 1, + 1\}

；弱学习算法

{G_m}(x)

输出：最终分类器G(x)
1.初始化训练数据的权值分布

{D_1} = ({w_{11}},{w_{12}}, \cdots ,{w_{1i}}, \cdots ,{w_{1N}}),\;\;\;\;\;{w_{1i}} = \frac{1}{N},i = 1,2, \cdots ,N

2.对

\cdots ,M

2.1 使用具有权值分布

{D_m}

的训练数据集学习，得到基分类器

{G_m}(x):\chi \to \{ - 1, + 1\}

2.2 计算

{G_m}(x)

在训练集上的分类误差率

{e_m} = \sum\limits_{i = 1}^N {{w_{mi}}\left[\kern-0.15em\left[ {{G_m}({x_i}) \ne {y_i}} \right]\kern-0.15em\right]}

2.3 计算

{G_m}(x)

的系数

{\alpha _m} = \frac{1}{2}\ln (\frac{{1 - {e_m}}}{{{e_m}}})

2.4 更新数据集的权值分布

\begin{array}{l}{D_{m + 1}} = ({w_{m + 1,1}}, \cdots ,{w_{m + 1,i}}, \cdots ,{w_{m + 1,N}})\\\\{w_{m + 1,i}} = \frac{{{w_{mi}}}}{{{Z_m}}}\exp ( - {\alpha _m}{y_i}{G_m}({x_i})),i = 1,2, \cdots ,N\end{array}

其中，

{Z_m}

是规范化因子，

{Z_m} = \sum\limits_{i = 1}^N {{w_{mi}}\exp ( - {\alpha _m}{y_i}{G_m}({x_i}))}

它使

{D_{m + 1}}

成为了一个概率分布，即，

\sum\limits_{i = 1}^N {{w_{mi}} = 1}

。
3.得到最终的分类器

sign(\sum\limits_{m = 1}^M {{\alpha _m}{G_m}(x)} )

最后，来看一下有关AdaBoost算法的一些含义解释。

首先，在刚开始的时候，假设训练集具有均匀的权值分布，即，训练集里的每条样本数据都具有相同的权值，为 $\frac{1}{N}$ 。这能保证在原始数据上学习得到基本分类器 ${G_1}(x)$ 。
而后的每一轮迭代，改变的其实只有两个量，一个是样本权重 ${w_{mi}}$ ，另一个是基本学习器的系数(权重) ${\alpha _m}$ 。在每一轮 $\cdots ,M$ 顺次地执行下列操作：
1.使用当前加权的训练集 ${D_m}$ ，学习基本分类器 ${G_m}(x)$ 。其实该步骤更新了 ${G_m}(x)$ 里的参数 ${\gamma _m}$ 。
2.计算 ${G_m}(x)$ 在加权数据集 ${D_m}$ 上的分类误差率，
${e_m} = \sum\limits_{i = 1}^N {{w_{mi}}\left[\kern-0.15em\left[ {{G_m}({x_i}) \ne {y_i}} \right]\kern-0.15em\right]} = \sum\limits_{{G_m}({x_i}) \ne {y_i}} {{w_{mi}}}$
${w_{mi}}$ 表示第m轮中第i个样本的权值，因为是规范化之后的，所以 $\sum\limits_{i = 1}^N {{w_{mi}} = 1}$ 。则这里的分类误差率表示的是被 ${G_m}(x)$ 误分类的样本权值之和。
3.计算基本分类器 ${G_m}(x)$ 的系数 ${\alpha _m}$ ，
${\alpha _m} = \frac{1}{2}\ln (\frac{{1 - {e_m}}}{{{e_m}}})$
图像如下图，
在这里插入图片描述
这里的 ${\alpha _m}$ 表示的是在最终分类器中的重要程度。由函数图像可知，当 ${e_m} \le \frac{1}{2}$ 时， ${\alpha _m} \ge 0$ ，并且 ${\alpha _m}$ 随 ${e_m}$ 的减小而增大，所以分类误差率越小的基分类器在最终分类器中的作用就越大。
4.更新样本集的权值分布，为下一轮做准备，这里的权值更新式 ${w_{m + 1,i}} = \frac{{{w_{mi}}}}{{{Z_m}}}\exp ( - {\alpha _m}{y_i}{G_m}({x_i}))$ 可以改写成，
${w_{m + 1,i}} = \left\{ {\begin{array}{} {\frac{{{w_{mi}}}}{{{Z_m}}}{e^{ - {\alpha _m}}},\;\;\;\;{G_m}({x_i}) \ne {y_i}}\\\\ {\frac{{{w_{mi}}}}{{{Z_m}}}{e^{{\alpha _m}}},\;\;\;\;{G_m}({x_i}) = {y_i}} \end{array}} \right.$

由上式可知，被基本分类器 ${G_m}(x)$ 误分类的样本的权值得以扩大，而被正确分类的样本的权值得以缩小。其中，误分类样本的权值被放大了 ${e^{2\alpha }} = \frac{{1 - {e_m}}}{{{e_m}}}$ 倍。这就说明，误分类的样本在下一轮学习中起到了更大的作用。不改变所给的训练集，而不断改变样本的权值分布，使得训练集在基本分类器中的学习起到了不同的作用，这其实就是统计学里的boostrapping操作，即，在一个样本集里进行N次有放回的抽样，这也是AdaBoost的一个特点。
最终分类器是由M个基本分类器线性组合而成，这是AdaBoost的另一个特点。系数 ${\alpha _m}$ 表示了基本分类器 ${G_m}(x)$ 的重要性，所有的 ${\alpha _m}$ 之和并不为1。最终的分类器f(x)的符号决定了实例所属的类别，而绝对值表示了分类的确信度。

daocaoren_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习——多模型选择和融合的方法2(AdaBoost)

Adaptive Boost(AdaBoost)是一种融合模型，而与Blending不同的是，Blending是在得到gtg_tgt之后再进行融合，而AdaBoost是一边学习gtg_tgt，一边融合。那么在介绍AdaBoost之前，首先要看的一个算法模型——前向分步算法。那么，什么是前向分步算法？首先，考虑如下形式的加法模型，f(x)=∑m=1Mβmb(x;γm){\rm{f}}(x...
复制链接

扫一扫