集成学习之boosting（4）

最新推荐文章于 2024-11-07 22:09:22 发布

毛球饲养员

最新推荐文章于 2024-11-07 22:09:22 发布

阅读量147

点赞数

分类专栏：机器学习文章标签：机器学习集成学习 boosting

原文链接：https://github.com/datawhalechina/team-learning-data-mining

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文介绍了集成学习中的前向分步算法，特别是加法模型（如Adaboost）的实现过程，以及如何通过梯度提升决策树（GBDT）进行基于残差的学习。重点讲解了前向分步的贪心策略和GBDT的逐次优化步骤，展示了如何构建复杂分类器。

摘要由CSDN通过智能技术生成

第四章：集成学习之Boosting提升法

四、前向分步算法

4.1 加法模型

加法模型(additive model)又叫可加模型。

在Adaboost模型中，我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和，即：
$f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$ ，其中， $b\left(x ; \gamma_{m}\right)$ 为即基本分类器， $\gamma_{m}$ 为基本分类器的参数， $\beta_m$ 为基本分类器的权重。
在给定训练数据以及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 就是：
$\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$

4.2 前向分步算法

但是有个缺点：
通常这是一个复杂的优化问题，很难通过简单的凸优化的相关知识进行解决。
所以：
前向分步算法可以用来求解这种方式的问题，它的基本思路是：因为学习的是加法模型，如果从前向后，每一步只优化一个基函数及其系数，逐步逼近目标函数，那么就可以降低优化的复杂度。具体而言，每一步只需要优化：
$\min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, \beta b\left(x_{i} ; \gamma\right)\right)$
贪心算法。

给定数据集
$T=\{(x_{1}, y_{1}),(x_{2}, y_{2}), \cdots,(x_{N}, y_{N})\}\\ x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}\\ y_{i} \in \mathcal{Y}=\{+1,-1\}$
损失函数 $L (y, f (x))$ ，基函数集合 $\{b(x ; \gamma)\}$ ，我们需要输出加法模型 $f (x)$ 。

初始化： $f_{0}(x)=0$
对m = 1,2,…,M:
- (a) 极小化损失函数：
  $\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$
  得到参数 $\beta_{m}$ 与 $\gamma_{m}$
- (b) 更新：
  $f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$
得到加法模型：
$f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

这样，前向分步算法将同时求解从m=1到M的所有参数 $\beta_{m}$ ， $\gamma_{m}$ 的优化问题简化为逐次求解各个 $\beta_{m}$ ， $\gamma_{m}$ 的问题。

回顾：
adaboost算法是前向分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。

五、梯度提升决策树(GBDT)

5.1 基于残差学习的提升树算法

误差的误差。
模仿分类错误率，我们用每个样本的残差表示每次使用基函数预测时没有解决的那部分问题。因此，我们可以得出如下算法：
输入数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}, x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}, y_{i} \in \mathcal{Y} \subseteq \mathbf{R}$ ，输出最终的提升树 $f_{M}(x)$

初始化 $f_0(x) = 0$
对m = 1,2,…,M：
- 计算每个样本的残差，相当于一个新的样本，y标签改变了:
  $r_{m i}=y_{i}-f_{m-1}\left(x_{i}\right), \quad i=1,2, \cdots, N$
- 拟合残差 $r_{mi}$ 学习一棵回归树，得到 $T\left(x ; \Theta_{m}\right)$
- 更新 $f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$
得到最终的回归问题的提升树： $f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$