机器学习进阶（6）：Boosting方法

Y_蒋林志

于 2021-07-12 00:55:52 发布

阅读量351

点赞数 3

分类专栏：机器学习基础课笔记文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_37233260/article/details/118662475

版权

机器学习基础课笔记专栏收录该内容

20 篇文章 6 订阅

订阅专栏

前言

Boosting是机器学习技术，与单纯随机森林依靠累加模型不同，它每一步产生一个弱预测模型，并且加权累加到总模型中。如果每一步的弱模型生成方向都是依据损失函数的梯度方向，则称之为梯度提升（Gradient Boosting）。
梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合（基函数）；通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。
如果一个问题存在弱分类器，则可以通过Boosting方法得到强分类器。

模型建立

对于输入训练样本 $\left( \mathbf{x}_{\mathbf{1}},\mathrm{y}_1 \right) ,\left( \mathbf{x}_{\mathbf{2}},\mathrm{y}_2 \right) ,...,\left( \mathbf{x}_{\mathbf{n}},\mathrm{y}_{\mathrm{n}} \right)$
来说，boosting的目标是找到近似函数，使得损失函数值最小， $L(y,F(\vec{x}))$ 的一般定义为：
$L(y,F(\vec{x}))=\frac{1}{2}(y-F(\vec{x}))^2$
或者
$L(y,F(\vec{x}))=|y-F(\vec{x})|$
需要求出最优近似函数：
$F^*(\vec{x})=\underset{F}{\mathrm{arg}\min}E_{(x,y)}[L(y,F(\vec{x}))]$
但是有别于随机森林的是，这里的最优函数不是简单的叠加，而是基函数 $f_i(x)$ 的加权和：
$F(\vec{x})=\sum_{i=1}^M{\gamma _i}f_i(x)+const$

模型求解

在梯度提升的方法下求最优解，首先给定常函数：
$F_0(\vec{x})=\underset{\gamma}{\mathrm{arg}\min}\sum_{i=1}^n{L}\left( y_i,\gamma \right)$
以贪心算法的思路扩展得到：
$F_m(\vec{x})=F_{m-1}(\vec{x})+\underset{f\in H}{\mathrm{arg}\min}\sum_{i=1}^n{L}\left( y_i,F_{m-1}\left( \vec{x}_i \right) +f\left( \vec{x}_i \right) \right)$
也就是说，下一次迭代的总函数，需要在上一次迭代的基础上加入新的基函数。但是贪心算法并不能完全满足基函数的选择，这里使用梯度下降的方法近似计算。将训练样本 $\left( \mathbf{x}_{\mathbf{1}},\mathrm{y}_1 \right) ,\left( \mathbf{x}_{\mathbf{2}},\mathrm{y}_2 \right) ,...,\left( \mathbf{x}_{\mathbf{n}},\mathrm{y}_{\mathrm{n}} \right)$ 代入基函数得到 $\mathrm{f}\left( \mathbf{x}_1 \right) ,\mathrm{f}\left( \mathbf{x}_{\mathbf{2}} \right) ,...,\mathrm{f}\left( \mathbf{x}_{\mathbf{n}} \right)$ ，从而L退化为向量 $\mathrm{L}\left( \mathrm{y}_1,\mathrm{f}\left( \mathbf{x}_1 \right) \right) ,\mathrm{L}\left( \mathrm{y}_2,\mathrm{f}\left( \mathbf{x}_2 \right) \right) ,...,\mathrm{L}\left( \mathrm{y}_{\mathrm{n}},\mathrm{f}\left( \mathbf{x}_{\mathrm{n}} \right) \right)$
有：
$F_m(\vec{x})=F_{m-1}(\vec{x})-\gamma _m\sum_{i=1}^n{\nabla _f}L\left( y_i,F_{m-1}\left( \vec{x}_i \right) \right)$
其中 $\gamma$ 为步长，使用线性搜索可以求出最优的步长：
$\gamma _m=\underset{\gamma}{\mathrm{arg}\min}\sum_{i=1}^n{L}\left( y_i,F_{m-1}\left( \vec{x}_i \right) -\gamma \cdot \nabla _fL\left( y_i,F_{m-1}\left( \vec{x}_i \right) \right) \right)$
这里不再赘述。