集成学习（中）--4-CSDN博客

本文链接：https://blog.csdn.net/weixin_41577592/article/details/116014599

前向分步算法与梯度提升决策树

前向分步算法
案例
作业

前向分步算法

加法模型
在Adaboost模型中，我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和。 $f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$ 其中， $b\left(x ; \gamma_{m}\right)$ 为即基本分类器， $\beta_m$ 为基本分类器的权重。
在给定训练数据以及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 就是： $\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$ ，求解思路是：因为学习的是加法模型，如果从前向后，每一步只优化一个基函数及其系数，逐步逼近目标函数，那么就可以降低优化的复杂度。
前向分步算法
给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ， $y_{i} \in \mathcal{Y}=\{+1,-1\}$ 。损失函数 $L (y, f (x))$ ，基函数集合 $\{b(x ; \gamma)\}$ ，我们需要输出加法模型 $f (x)$ 。

初始化： $f_{0}(x)=0$
对m = 1,2,…,M:
- 极小化损失函数：
$\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$
得到参数 $\beta_{m}$ 与 $\gamma_{m}$
- 更新：
$f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$
得到加法模型：
$f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$
这样，前向分步算法将同时求解从m=1到M的所有参数 $\beta_{m}$ ， $\gamma_{m}$ 的优化问题简化为逐次求解各个 $\beta_{m}$ ， $\gamma_{m}$ 的问题。

前向分步算法与Adaboost的关系：
Adaboost算法是前向分步算法的特例，Adaboost算法是由基本分类器组成的加法模型，损失函数为指数损失函数。
#梯度提升决策树(GBDT)
##基于残差学习的提升树算法
在使用加法模型+前向分步算法的框架解决回归问题之前，需要首先确定框架使用什么样的基函数。树算法最重要是寻找最佳的划分点，分类树用纯度来判断最佳划分点，但是在回归树中的样本标签是连续数值，可划分点包含了所有特征的所有可取的值。所以，使用平方误差取代熵之类的指标。回归问题没有分类错误率可言，可以模仿分类错误率，用每个样本的残差表示每次使用基函数预测时没有解决的那部分问题。（输入：数据集；输出：最终的提升树）

初始化
对m = 1,2,…,M：
- 计算每个样本的残差: $r_{m i}=y_{i}-f_{m-1}\left(x_{i}\right), \quad i=1,2, \cdots, N$
- 拟合残差 $r_{mi}$ 学习一棵回归树，得到 $T\left(x ; \Theta_{m}\right)$
- 更新 $f_{m}(x)=f_{m-1}(x)+T\left(x ; \Theta_{m}\right)$
得到最终的回归问题的提升树： $f_{M}(x)=\sum_{m=1}^{M} T\left(x ; \Theta_{m}\right)$
##梯度提升决策树算法(GBDT)：
利用最速下降法的近似方法，利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合回归树。（输入：训练数据集和损失函数；输出：回归树）
初始化 $f_{0}(x)=\arg \min _{c} \sum_{i=1}^{N} L\left(y_{i}, c\right)$
对于m=1,2,…,M：
- 对i = 1,2,…,N计算： $r_{m i}=-\left[\frac{\partial L\left(y_{i}, f\left(x_{i}\right)\right)}{\partial f\left(x_{i}\right)}\right]_{f(x)=f_{m-1}(x)}$
- 对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶结点区域 $R_{m j}, j=1,2, \cdots, J$
- 对j=1,2,…J，计算： $c_{m j}=\arg \min _{c} \sum_{x_{i} \in R_{m j}} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+c\right)$
- 更新 $f_{m}(x)=f_{m-1}(x)+\sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$
得到回归树： $\hat{f}(x)=f_{M}(x)=\sum_{m=1}^{M} \sum_{j=1}^{J} c_{m j} I\left(x \in R_{m j}\right)$

案例

from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples=1200, random_state=0, noise=1.0)
X_train, X_test = X[:200], X[200:]
y_train, y_test = y[:200], y[200:]
est = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1,
    max_depth=1, random_state=0, loss='ls').fit(X_train, y_train)
mean_squared_error(y_test, est.predict(X_test))

from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
X, y = make_regression(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=0)
reg = GradientBoostingRegressor(random_state=0)
reg.fit(X_train, y_train)
reg.score(X_test, y_test)

作业

GradientBoostingRegressor参数解释：

loss：{‘ls’, ‘lad’, ‘huber’, ‘quantile’}, default=’ls’：‘ls’ 指最小二乘回归. ‘lad’ (最小绝对偏差) 是仅基于输入变量的顺序信息的高度鲁棒的损失函数。. ‘huber’ 是两者的结合. ‘quantile’允许分位数回归（用于alpha指定分位数）
learning_rate：学习率缩小了每棵树的贡献learning_rate。在learning_rate和n_estimators之间需要权衡。
n_estimators：要执行的提升次数。
subsample：用于拟合各个基础学习者的样本比例。如果小于1.0，则将导致随机梯度增强。subsample与参数n_estimators。选择会导致方差减少和偏差增加。subsample < 1.0
criterion：{‘friedman_mse’，‘mse’，‘mae’}，默认=‘friedman_mse’：“ mse”是均方误差，“ mae”是平均绝对误差。默认值“ friedman_mse”通常是最好的，因为在某些情况下它可以提供更好的近似值。
min_samples_split：拆分内部节点所需的最少样本数
min_samples_leaf：在叶节点处需要的最小样本数。
min_weight_fraction_leaf：在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。
max_depth：各个回归模型的最大深度。最大深度限制了树中节点的数量。调整此参数以获得最佳性能；最佳值取决于输入变量的相互作用。
min_impurity_decrease：如果节点分裂会导致杂质的减少大于或等于该值，则该节点将被分裂。
min_impurity_split：提前停止树木生长的阈值。如果节点的杂质高于阈值，则该节点将分裂
max_features{‘auto’, ‘sqrt’, ‘log2’}，int或float：寻找最佳分割时要考虑的功能数量：
如果为int，则max_features在每个分割处考虑特征。
如果为float，max_features则为小数，并在每次拆分时考虑要素。int(max_features * n_features)
如果“auto”，则max_features=n_features。
如果是“ sqrt”，则max_features=sqrt(n_features)。
如果为“ log2”，则为max_features=log2(n_features)。
如果没有，则max_features=n_features。
verbose：启用详细输出。值为1，则在一次循环后打印一次进度和性能（树越多频率越低）。如果值大于1，则为每个树打印进度和性能。
max_leaf_nodes：以优者优先的顺序生长带有max_leaf_nodes的树。最佳节点也就是纯度相对高的节点。如果没有，则不限制叶子节点的数量。
warm_start：当设置为true时，重新调用上次的解决方案以进行拟合并增加跟多的估计器；否则，只需清除之前的解决方案。
validation_fraction：预留的训练数据的比例，用作早期停止的验证集。必须结余0和1之间。仅在n_iter_no_change设置为整数时使用。
n_iter_no_change：用于确定在验证分数为提高时，是否使用早期停止来终止训练。
tol：早期停止的容忍度。当n_iter_no_change迭代的损失至少没有改善时（如果设置为数字），训练停止。
ccp_alpha：用于最小化成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下，不执行修剪。