GBDT梯度提升树

最新推荐文章于 2022-11-21 12:02:07 发布

Gu_NN

最新推荐文章于 2022-11-21 12:02:07 发布

阅读量273

点赞数

分类专栏：集成学习文章标签： python

本文链接：https://blog.csdn.net/Gu_NN/article/details/121080810

版权

集成学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

前向分步算法框架

前向分步算法是在Adaboost基础上提出的算法框架。

研究对象：
- 加法集成模型： $f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$
  其中，
  $b\left(x ; \gamma_{m}\right)$ 为即基本分类器，
  $\gamma_{m}$ 为基本分类器的参数，
  $\beta_m$ 为基本分类器的权重
- 损失函数：在给定训练数据以及损失函数 $L (y, f (x))$ 的条件下，学习 $f (x)$ 就是：
  $\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$
基本思路：将同时求解从m=1到M的所有参数 $\beta_{m}$ ， $\gamma_{m}$ 的优化问题简化为逐次求解各个 $\beta_{m}$ ， $\gamma_{m}$ 的问题。（并不一定是全局最优）
步骤
给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ， $y_{i} \in \mathcal{Y}=\{+1,-1\}$ 。损失函数 $L (y, f (x))$ ，基函数集合 $\{b(x ; \gamma)\}$ ，输出加法模型 $f (x)$ 。
Step1 初始化 ： $f_{0}(x)=0$
Step2 迭代极小化损失函数
对m = 1,2,…,M:
$\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$
$f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$
Step3 最终加法模型
$f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

梯度提升树

梯度提升树（Gradient Boosting Decision Tree，GBDT）是在前向分布算法框架下，以决策树为基学习器，利用梯度下降法的集成模型。

回归问题

基本概念

设优化问题为： $w_i=\arg\min_{w}L(y_i,F_{m-1}(X_i)+w)$
对于可微损失函数， $w_i=0$ 处进行剃度下降即可得到损失更小的 $w_i^*$ 。
记 $r_i = y_i-F_{m-1}(X_i)$
则损失函数 $L(y,\hat y)$

$L(y,\hat y) = \sqrt {|y-\hat y|}$ 时：
$\begin{aligned} w^*_i &= 0-\left.\frac{\partial L}{\partial w} \right|_{w=0}\\ &= -\left.\frac{\partial \sqrt {|r_i-w_i|}}{\partial w} \right|_{w=0}\\ &= \frac{1}{2\sqrt{\vert r_i\vert}}sign(r_i) \end{aligned}$
注：当 $r_i=0$ 时，上轮结果与真实值无差异，令 $w^*=0$ 即可。
$L(y,\hat y) = (y-\hat y)^2$ 时：
$\begin{aligned} w^*_i &= 0-\left.\frac{\partial L}{\partial w} \right|_{w=0}\\ &= -\left.\frac{\partial (r_i-w_i)^2}{\partial w} \right|_{w=0}\\ &= 2r_i \end{aligned}$
为了缓解模型的过拟合现象，我们需要引入学习率参数 $\eta$ 来控制每轮的学习速度，即获得了由 $\textbf{w}^*$ 拟合的第m棵树 $h^*$ 后，当前轮的输出结果为: $\hat{y}_i=F_{m-1}(X_i)+\eta h^*_m(X_i)$

当损失函数为绝对值时， $F_0$ 为y中位数；当损失函数为均方值时， $F_0$ 为y均值。

代码

python库：sklearn.ensemble.GradientBoostingRegressor

from sklearn.tree import DecisionTreeRegressor as DT
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import numpy as np

class GBDTRegressor:

    def __init__(self, max_depth=4, n_estimator=100, lr=0.1):
        self.max_depth = max_depth
        self.n_estimator = n_estimator
        self.lr = lr
        self.booster = []
        self.best_round = None

    def record_score(self, y_train, y_val, train_predict, val_predict, i):
        mse_val = mean_squared_error(y_val, val_predict)
        if (i+1)%10==0:
            mse_train = mean_squared_error(y_train, train_predict)
            print("第%d轮\t训练集： %.4f\t"
                "验证集： %.4f"%(i+1, mse_train, mse_val))
        return mse_val

    def fit(self, X, y):
        # 在数据集中划分训练集和验证集
        X_train, X_val, y_train, y_val = train_test_split(
            X, y, test_size=0.25, random_state=0)
        train_predict, val_predict = 0, 0
        #损失函数为均方损失
        next_fit_val = np.full(X_train.shape[0], np.mean(y_train))
        # 为early_stop做记录准备
        last_val_score = np.infty
        for i in range(self.n_estimator):
            cur_booster = DT(max_depth=self.max_depth)
            cur_booster.fit(X_train, next_fit_val)
            train_predict += cur_booster.predict(X_train) * self.lr
            val_predict += cur_booster.predict(X_val) * self.lr
            next_fit_val = y_train - train_predict
            self.booster.append(cur_booster)
            cur_val_score = self.record_score(
                y_train, y_val, train_predict, val_predict, i)
            if cur_val_score > last_val_score:
                self.best_round = i
                print("\n训练结束！最佳轮数为%d"%(i+1))#为防止过拟合，所以选择验证集最佳
                break
            last_val_score = cur_val_score

    def predict(self, X):
        cur_predict = 0
        # 在最佳验证集得分的轮数停止，防止过拟合
        for i in range(self.best_round):
            cur_predict += self.lr * self.booster[i].predict(X)
        return cur_predict

分类问题

基本概念

GBDT用回归树处理分类问题。

利用Softmax处理类别，得到样本属于类别的概率 $\frac{e^{F_{ki}}}{\sum_{c=1}^Ke^{F_{ci}}}$
对类别进行one-hot编码
损失函数用交叉熵表示为 $L(\textbf{y}_i,\textbf{F}_i)=-\sum_{c=1}^K y_{ci}\log \frac{e^{F_{ci}}}{\sum_{\tilde{c}=1}^Ke^{F_{\tilde{c}i}}}$
学习目标为 $\begin{aligned} \textbf{h}_i^{*(m)} &= \textbf{F}_i^{*(m)} - \textbf{F}_i^{(m-1)}\\ &= - \left.\frac{\partial L}{\partial \textbf{F}_i} \right|_{\textbf{F}_i=\textbf{F}_i^{(m-1)}} \\ &= [y_{1i} - \frac{e^{F^{(m-1)}_{1i}}}{\sum_{c=1}^K e^{F^{(m-1)}_{ci}}},...,y_{Ki} - \frac{e^{F^{(m-1)}_{Ki}}}{\sum_{c=1}^K e^{F^{(m-1)}_{ci}}}] \end{aligned}$
引入学习率后 $\textbf{F}^{*(m)}_i=\textbf{F}_i^{(m-1)}+\eta \textbf{h}_i^{*(m)}$

算法简化

因为K分类每种分类概率和为1，利用此性质，所以可以将K次拟合减少为K-1次，这在处理类别数较少的分类问题时（特别二分类问题）非常有用。

当 $K\geq3$ 时
- 损失函数 $L(F_{1i},...,F_{(K-1)i})= y_{Ki}\log [1+\sum_{c=1}^{K-1}e^{F_{ci}}] -\sum_{c=1}^{K-1} y_{ci}\log \frac{e^{F_{ci}}}{1+\sum_{c=1}^{K-1}e^{F_{ci}}}$
- 负梯度 $-\left.\frac{\partial L}{\partial F_{ki}} \right|_{\textbf{F}_i=\textbf{F}_i^{(m-1)}} = \left\{ \begin{aligned} -\frac{e^{F^{(m-1)}_{ki}}}{1+\sum_{c=1}^{K-1} e^{F^{(m-1)}_{ci}}} &\qquad y_{Ki}=1 \\ y_{ki} - \frac{e^{F^{(m-1)}_{ki}}}{1+\sum_{c=1}^{K-1} e^{F^{(m-1)}_{ci}}} & \qquad y_{Ki}=0 \\ \end{aligned} \right.$
- 初始值 $[\frac{e^{F^{(0)}_{1i}}}{1+\sum_{c=1}^{K-1}e^{F^{(0)}_{ci}}},...,\frac{e^{F^{(0)}_{(K-1)i}}}{1+\sum_{c=1}^{K-1}e^{F^{(0)}_{ci}}},\frac{1}{1+\sum_{c=1}^{K-1}e^{F^{(0)}_{ci}}}] = [p_1,...,p_{K-1},p_K]$
当 $K = 2$ 时
- 损失函数 $L(F_i) = - y_i\log \frac{e^{F_i}}{1+e^{F_i}} - (1-y_i)\log \frac{1}{1+e^{F_i}}$
- 负梯度 $-\left.\frac{\partial L}{\partial F_{i}} \right|_{F_i=F^{(m-1)}_i}=y_i-\frac{e^{F_i}}{1+e^{F_i}}$
- 初始值 $\frac{1}{1+e^{F^{(0)}_i}},\frac{e^{F^{(0)}_i}}{1+e^{F^{(0)}_i}}]=[p_0,p_1]$
  例：设二分类数据集中正样本比例为10%（即 $p_1=\frac{1}{10}$ ），则 $\frac{e^{F^{(0)}}}{1+e^{F^{(0)}}}=\frac{1}{10}$ ， $F^{(0)}=-\ln9$ 。

代码

python库：sklearn.ensemble.GradientBoostingClassifier

from sklearn.tree import DecisionTreeRegressor as DT
from sklearn.datasets import make_classification
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
import numpy as np

class GBDTClassifier:

    def __init__(self, max_depth=4, n_estimator=100, lr=0.1):
        self.max_depth = max_depth
        self.n_estimator = n_estimator
        self.lr = lr
        self.booster = []

        self.best_round = None

    def record_score(self, y_train, y_val, train_predict, val_predict, i):
        train_predict = np.exp(train_predict) / (1 + np.exp(train_predict))
        val_predict = np.exp(val_predict) / (1 + np.exp(val_predict))
        auc_val = roc_auc_score(y_val, val_predict)
        if (i+1)%10==0:
            auc_train = roc_auc_score(y_train, train_predict)
            print("第%d轮\t训练集： %.4f\t"
                "验证集： %.4f"%(i+1, auc_train, auc_val))
        return auc_val

    def fit(self, X, y):
        X_train, X_val, y_train, y_val = train_test_split(
            X, y, test_size=0.25, random_state=0)
        train_predict, val_predict = 0, 0
        fit_val = np.log(y_train.mean() / (1 - y_train.mean()))
        next_fit_val = np.full(X_train.shape[0], fit_val)
        last_val_score = - np.infty
        for i in range(self.n_estimator):
            cur_booster = DT(max_depth=self.max_depth)
            cur_booster.fit(X_train, next_fit_val)
            train_predict += cur_booster.predict(X_train) * self.lr
            val_predict += cur_booster.predict(X_val) * self.lr
            next_fit_val = y_train - np.exp(
                train_predict) / (1 + np.exp(train_predict))
            self.booster.append(cur_booster)
            cur_val_score = self.record_score(
                y_train, y_val, train_predict, val_predict, i)
            if cur_val_score < last_val_score:
                self.best_round = i
                print("\n训练结束！最佳轮数为%d"%(i+1))
                break
            last_val_score = cur_val_score

    def predict(self, X):
        cur_predict = 0
        for i in range(self.best_round):
            cur_predict += self.lr * self.booster[i].predict(X)
        return np.exp(cur_predict) / (1 + np.exp(cur_predict))

XGBoost

项目	GBDT	XGBoost
损失函数	$G(h_m) = \sum_{i=1}^NL(y_i, F_{m-1}(X_i)+h_m(X_i))$	$L^{(m)}(F^{(m)}_i) = \gamma T+\frac{1}{2}\lambda \sum_{j=1}^Tw_j+\sum_{i=1}^NL(y_i, F^{(m)}_i)$ 补充了两个正则项控制树生长以及拟合效果
优化方法	依赖于损失函数一阶导数	选择二次函数近似方法求目标值（对各类损失函数更有自适应性）
分裂依据	信息增益	近似损失 $\frac{1}{2}[\frac{(\sum_{i\in I_L}p_i)^2}{\sum_{i\in I_L}q_i+\lambda}+\frac{(\sum_{i\in I_R}p_i)^2}{\sum_{i\in I_R}q_i+\lambda}-\frac{(\sum_{i\in I}p_i)^2}{\sum_{i\in I}q_i+\lambda}] -\gamma$

其中， $p_i=\left . \frac{\partial L}{\partial h_i}\right |_{h_i=0}$ ， $q_i=\left . \frac{\partial^2 L}{\partial h^2_i}\right |_{h_i=0}$ 。

注：为保证二次函数开口向上（即 $q_i>0$ ）。损失函数应当选取在整个定义域上或在𝑦𝑖临域上二阶导数恒正的损失函数，例如平方损失。均方根误差 $\sqrt{\vert y-\hat{y}\vert}$ 、log平方误差 $\frac{1}{2}[\log(\frac{y+1}{\hat{y}+1})]^2$ 不能满足该要求。Pseudo Huber Error $\delta^2(\sqrt{1+(\frac{y-\hat{y}}{\delta})^2}-1)$ 则可以满足。

LightGBM

LightGBM在XGBoost的二阶近似基础上提出了两个新算法：单边梯度采样（GOSS）和互斥特征绑定（EFB）。

单边提督采样

目的：使梯度绝对值越小
思路：对梯度绝对值小的样本进行抽样
方法：对样本梯度绝对值排序后，先选出前𝑎%梯度绝对值对应的样本，再从剩下(1−𝑎)的样本中抽取𝑏%的样本（此处𝑏%是对于总样本的百分比），然后计算信息增益： $\tilde{Gain}(F,d) = \frac{1}{N}[\frac{(\sum_{i\in A_L}{g_i}+\frac{1-a}{b}\sum_{i\in B_L}{g_i})^2}{N_L}+\frac{(\sum_{i\in A_R}{g_i}+\frac{1-a}{b}\sum_{i\in B_R}{g_i})^2}{N_R}]$

互斥特征绑定

目的：绑定互斥特征，减少稀疏特征
互斥特征：任意两个特征都不同时取非零值的特征集合
等效问题：图着色问题
几乎互斥：若存在一个样本使得两个特征同时为非零值则记它们存在一次冲突，特征之间的冲突总数不超过给定的最大冲突数𝐾，则近似为互斥（更符合实际情况）。

[参考]：
DataWhale集成学习

Gu_NN

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GBDT梯度提升树

目录前向分步算法框架梯度提升树回归问题分类问题前向分步算法框架前向分步算法是在Adaboost基础上提出的算法框架。研究对象：加法集成模型：f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)f(x)=m=1∑Mβmb(x;γm)其中，b(x;γm)b\left(x ; \gamma_{m}\right)b(x;γm)为即基本分类器，γm\gamma_{m}γm为基本分类器的参
复制链接

扫一扫