【集成学习】10 向前分布算法与梯度提升决策树

本文链接：https://blog.csdn.net/apple_50678962/article/details/116070274

向前分布算法

Adaboost的算法内容：
我们需要通过计算M个基分类器，每个人类器的错误率、样本权重以及模型权重。aka，Adaboost每次学习单一分类器以及单一分类器的参数（权重）。

抽象出Adaboost算法的整体框架逻辑，构建集成学习的一个非常重要的框架 – 前向分布算法，有了这个框架，我们不仅可以解决分类问题，也可以解决回归问题。

加法模型

在Adaboost模型中，我们把每个基分类器合成一个复杂分类器的方法是 – 每个基本分类器的加权和，

即 $f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

$b\left(x ; \gamma_{m}\right)$ – 基本分类器
$\gamma_{m}$ – 基本分类器的参数
$\beta_m$ – 基本分类器的权重

在给定训练数据以及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 就是：
$\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$

通常这是一个复杂的优化问题，很难通过简单的凸优化的相关知识进行解决。

前向分步算法可以用来求解这种方式的问题，它的基本思路是：
因为学习的是加法模型，如果从前向后，每一步只优化一个基函数及其系数，逐步逼近目标函数，那么可以降低优化的复杂度。具体而言，每一步只需要优化：
$\min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, \beta b\left(x_{i} ; \gamma\right)\right)$

前向分步算法

给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ， $y_{i} \in \mathcal{Y}=\{+1,-1\}$ 。

损失函数 $L (y, f (x))$
基函数集合 $\{b(x ; \gamma)\}$
我们需要输出加法模型 $f (x)$

1、初始化： $f_{0}(x)=0$
2、对m = 1,2,…,M：

极小化损失函数
$\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$
得到参数 $\beta_{m}$ 与 $\gamma_{m}$
更新
$f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$

3、得到加法模型
$f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$
这样，前向分步算法将同时求解从m=1到M的所有参数 $\beta_{m}$ ， $\gamma_{m}$ 的优化问题简化为逐次求解各个 $\beta_{m}$ ， $\gamma_{m}$ 的问题。

前向分步算法与Adaboost的关系

见李航老师的《统计学习方法》第八章的3.2节

Adaboost算法是前向分步算法的特例，Adaboost算法是由基本分类器组成的加法模型，损失函数为指数损失函数。

梯度提升决策树（GBDT）

基于残差学习的提升树算法

之前讨论的都是分类树，没有设计回归的例子。

以下，加法模型+前向分布算法的框架实现回归问题。

1、先确定框架内使用的基函数是什么，这里使用决策树分类器。

前面学过了回归树的基本原理，树算法最重要是寻找最佳的划分点，分类树用纯度来判断最佳划分点使用信息增益（ID3算法），信息增益比（C4.5算法），基尼系数（CART分类树）。

但是在回归树中的样本标签是连续数值，可划分点包含了所有特征的所有可取的值。所以再使用熵之类的指标不再合适，取而代之的是平方误差，它能很好的评判拟合程度。

2、基函数确定后，我们需要确定每次提升的标准是什么

Adaboost算法内使用了分类错误率修正样本权重以及计算每个基分类器的权重，可是回归问题没有分类错误率可言，也就没办法在这里的回归问题使用了

模仿分类错误率，我们用每个样本的残差表示每次使用基函数预测时没有解决的那部分问题

因此可以得出如下算法

输入数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}, x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}, y_{i} \in \mathcal{Y} \subseteq \mathbf{R}$
输出最终的提升树 $f_{M}(x)$

初始化 $f_0(x) = 0$
对m = 1,2,…,M：
- 计算每个样本的残差: $r_{m i}=y_{i}-f_{m-1}\left(x_{i}\right), \quad i=1,2, \cdots, N$
- 拟合残差 $r_{mi}$ 学习一棵回归树，得到 $T\left(x ; \Theta_{m}\right)$
- 更新 $f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$
得到最终的回归问题的提升树： $f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$

梯度提升决策树算法（GBDT）

提升树利用加法模型和前向分布算法实现学习的过程，当损失函数为平方损失和指数损失时，每一步优化是相当简单的，也就是前面讨论的提升树算法和Adaboost算法。

但是对于一般的损失函数而言，往往每一步的优化不是那么容易，针对这一问题，我们得分析问题的本质，也就是是什么导致了在一般损失函数条件下的学习困难。

对以下loss function：
$\begin{array}{l|l|l} \hline \text { Setting } & \text { Loss Function } & -\partial L\left(y_{i}, f\left(x_{i}\right)\right) / \partial f\left(x_{i}\right) \\ \text { Regression } & \frac{1}{2}\left[y_{i}-f\left(x_{i}\right)\right]^{2} &y_{i}-f\left(x_{i}\right) \\ \hline \text { Regression } & \left|y_{i}-f\left(x_{i}\right)\right| &\left[y_{i}-f\left(x_{i}\right)\right] \\ \hline \text { Regression } & \text { Huber } &y_{i}-f\left(x_{i}\right) \text { for }\left|y_{i}-f\left(x_{i}\right)\right| \leq \delta_{m} \\ & & \delta_{m} \operatorname{sign}\left[y_{i}-f\left(x_{i}\right)\right] \text { for }\left|y_{i}-f\left(x_{i}\right)\right|>\delta_{m} \\ & & \text { where } \delta_{m}=\alpha \text { th-quantile }\left\{\left|y_{i}-f\left(x_{i}\right)\right|\right\} \\ \hline \text { Classification } & \text { Deviance } & k \text { th component: } I\left(y_{i}=\mathcal{G}_{k}\right)-p_{k}\left(x_{i}\right) \\ \hline \end{array}$

观察Huber loss func：
$L_{\delta}(y, f(x))=\left\{\begin{array}{ll} \frac{1}{2}(y-f(x))^{2} & \text { for }|y-f(x)| \leq \delta \\ \delta|y-f(x)|-\frac{1}{2} \delta^{2} & \text { otherwise } \end{array}\right.$

针对上面的问题，Freidman提出了梯度提升算法（gradient boosting），这是利用最速下降法的近似方法，利用loss func的负梯度在当前模型的值 $-\left[\frac{\partial L\left(y, f\left(x_{i}\right)\right)}{\partial f\left(x_{i}\right)}\right]_{f(x)=f_{m-1}(x)}$ 作为回归问题提升树算法中的残差的近似值，拟合回归树。

与其说负梯度作为残差的近似值，不如说残差是负梯度的一种特例。

梯度提升算法

输入训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}, x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}, y_{i} \in \mathcal{Y} \subseteq \mathbf{R}$ 和损失函数 $L (y, f (x))$
输出回归树 $\hat{f}(x)$

初始化 $f_{0}(x)=\arg \min _{c} \sum_{i=1}^{N} L\left(y_{i}, c\right)$
对于m=1,2,…,M
- 对i = 1,2,…,N计算： $r_{m i}=-\left[\frac{\partial L\left(y_{i}, f\left(x_{i}\right)\right)}{\partial f\left(x_{i}\right)}\right]_{f(x)=f_{m-1}(x)}$
- 对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶结点区域 $R_{m j}, j=1,2, \cdots, J$
- 对j=1,2,…J，计算： $c_{m j}=\arg \min _{c} \sum_{x_{i} \in R_{m j}} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+c\right)$
- 更新 $f_{m}(x)=f_{m-1}(x)+\sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$
得到回归树： $\hat{f}(x)=f_{M}(x)=\sum_{m=1}^{M} \sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$

使用sklearn来使用GBDT

GradientBoostingRegressor参数解释

loss：{‘ls’, ‘lad’, ‘huber’, ‘quantile’}, default=’ls’：‘ls’ 指最小二乘回归. ‘lad’ (最小绝对偏差) 是仅基于输入变量的顺序信息的高度鲁棒的损失函数。. ‘huber’ 是两者的结合. ‘quantile’允许分位数回归（用于alpha指定分位数）
learning_rate：学习率缩小了每棵树的贡献learning_rate。在learning_rate和n_estimators之间需要权衡。
n_estimators：要执行的提升次数。
subsample：用于拟合各个基础学习者的样本比例。如果小于1.0，则将导致随机梯度增强。subsample与参数n_estimators。选择会导致方差减少和偏差增加。subsample < 1.0
criterion：{‘friedman_mse’，‘mse’，‘mae’}，默认=‘friedman_mse’：“ mse”是均方误差，“ mae”是平均绝对误差。默认值“ friedman_mse”通常是最好的，因为在某些情况下它可以提供更好的近似值。
min_samples_split：拆分内部节点所需的最少样本数
min_samples_leaf：在叶节点处需要的最小样本数。
min_weight_fraction_leaf：在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。
max_depth：各个回归模型的最大深度。最大深度限制了树中节点的数量。调整此参数以获得最佳性能；最佳值取决于输入变量的相互作用。
min_impurity_decrease：如果节点分裂会导致杂质的减少大于或等于该值，则该节点将被分裂。
min_impurity_split：提前停止树木生长的阈值。如果节点的杂质高于阈值，则该节点将分裂
max_features{‘auto’, ‘sqrt’, ‘log2’}，int或float：寻找最佳分割时要考虑的功能数量：
如果为int，则max_features在每个分割处考虑特征。
如果为float，max_features则为小数，并在每次拆分时考虑要素。int(max_features * n_features)
如果“auto”，则max_features=n_features。
如果是“ sqrt”，则max_features=sqrt(n_features)。
如果为“ log2”，则为max_features=log2(n_features)。
如果没有，则max_features=n_features。

在这里插入图片描述

GradientBoostingRegressor与GradientBoostingClassifier函数的各个参数的意思

GradientBoostingRegressor

loss{‘ls’, ‘lad’, ‘huber’, ‘quantile’}, default=’ls’
learning_ratefloat, default=0.1
n_estimatorsint, default=100
subsamplefloat, default=1.0
criterion{‘friedman_mse’, ‘mse’, ‘mae’}, default=’friedman_mse’
min_samples_splitint or float, default=2
min_samples_leafint or float, default=1
min_weight_fraction_leaffloat, default=0.0
max_depthint, default=3
min_impurity_decreasefloat, default=0.0
min_impurity_splitfloat, default=None
initestimator or ‘zero’, default=None
random_stateint, RandomState instance or None, default=None
max_features{‘auto’, ‘sqrt’, ‘log2’}, int or float, default=None
alphafloat, default=0.9
verboseint, default=0
max_leaf_nodesint, default=None
warm_startbool, default=False
validation_fractionfloat, default=0.1
n_iter_no_changeint, default=None
tolfloat, default=1e-4
ccp_alphanon-negative float, default=0.0

GradientBoostingClassifier

loss{‘deviance’, ‘exponential’}, default=’deviance’ ‘deviance’
learning_ratefloat, default=0.1学习率缩小了每棵树的贡献learning_rate。在learning_rate和n_estimators之间需要权衡。
n_estimatorsint, default=100 要执行的提升次数。
subsamplefloat, default=1.0 用于拟合各个基础学习者的样本比例。如果小于1.0，则将导致随机梯度增强。subsample与参数n_estimators。选择会导致方差减少和偏差增加。subsample < 1.0
criterion{‘friedman_mse’, ‘mse’, ‘mae’}, default=’friedman_mse’ “ mse”是均方误差，“ mae”是平均绝对误差。默认值“ friedman_mse”通常是最好的，因为在某些情况下它可以提供更好的近似值。
min_samples_split: int or float, default=2 拆分内部节点所需的最少样本数
min_samples_leaf: int or float, default=1 在叶节点处需要的最小样本数。
min_weight_fraction_leaffloat, default=0.0 在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。
max_depth: int, default=3
min_impurity_decrease: float, default=0.0
min_impurity_split: float, default=None
init: estimator or ‘zero’, default=None
random_state: int, RandomState instance or None, default=None
max_features{‘auto’, ‘sqrt’, ‘log2’}, int or float, default=None
verbose: int, default=0
max_leaf_nodes: int, default=None
warm_start: bool, default=False
validation_fraction: float, default=0.1
n_iter_no_change: int, default=None
tol: float, default=1e-4
ccp_alpha: non-negative float, default=0.0