LambdaMart

jony0917

已于 2022-05-22 09:59:17 修改

阅读量1.7k

点赞数

文章标签：概率论机器学习算法

于 2022-03-27 14:54:20 首次发布

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/123773659

版权

Boosting Tree

$f(\bold{x}) = f_M(\bold{x}) = \sum_{m=1}^Mh(\bold{x};\theta_m)$

其中 $h(\bold{x;\theta_m})$ 为第m棵树， $\theta_m$ 为第m棵树的参数，M为决策树的数量。

前向分步算法：

首先确定初始提升树 $f_0(\bold{x}) = 0$
第m步的提升树模型为 $f_{m}({\bold{x}})=f_{m-1}({\bold{x}})+h_{m}({\bold{x}} ; \theta_{m})$ ， $\theta_m$ 为待求解的第m个树的参数
$(\bold{x}_i,\overline{y}_i)$ 为样本， $\theta_m: \hat{\theta}_m=argmin_{\theta_m}E[L(y,f_m(\bold{x}))]=\arg \min _{\theta_m} \sum_{i=1}^{N} L\left(\overline{y}_i, f_m\left(\bold{x}_{i}\right)\right)$

损失函数有以下推导：

$L(\bar{y}, f_m(\bold{x})) = (\bar{y}-f_m(\bold{x}))^2$

$=(\bar{y}-f_{m-1}(\bold{x})-h_m(\bold{x};\theta_m))^2 = (r - h_m(\bold{x};\theta_m))^2,r=\bar{y}-f_{m-1}({\bold{x}})$

其中r为上一步模型拟合的残差， $h_{m}(\cdot)$ 拟合的是 $f_{m-1}(\cdot)$ 的残差。

回归提升树的算法过程

输入：训练数据集 $D=\{(\bold{x}_1,\bar{y}_1),...,(\bold{x}_n,\bar{y}_n)\}$

输出： $f_M(\bold{x})$

算法：

初始化 $f_0(\bold{x}) = 0$
对于 $m = 1, 2, . ., M$
- 计算残差 $r_{mi} = \bar{y}_i - f_{m-1}(\bold{x}_i)$ ，构建训练样本 $\{(\bold{x}_1,r_{m1}),...,(\bold{x}_n,r_{mn})\}$
- 新建一个回归树拟合上一步残差，得到回归树 $h_m({\bold{x};\theta_m})$
- 更新模型 $f_m(\bold{x}) = f_{m-1}(\bold{x})+h_m(\bold{x};\theta_m)$
得到模型 $f_M(\bold{x})=\sum_{m=1}^Mh(\bold{x};\theta_m)$

Gradiant Boosting Tree

对损失函数进行泰勒展开，得到损失函数的近似表示：

$L(\bar{y},f_m(\bold{x})) = L(\bar{y},f_{m-1}(\bold{x})+h_m(\bold{x};\theta_m))$

$\approx L(\bar{y},f_{m-1}(\bold{x})) + \frac{\partial L(\bar{y}, f_{m-1}(\bold{x}))}{\partial f_{m-1}(\bold{x})} h_m(\bold{x};\theta_m)$

取 $h_m(\bold{x};\theta_m) = -\frac{\partial L(\bar{y},f_{m-1}(\bold{x}))}{\partial f_{m-1}(\bold{x})}$ ，则损失函数下降

梯度提升树算法过程：

输入：训练数据集 $D=\{(\bold{x}_1,\bar{y}_1),...,(\bold{x}_n,\bar{y}_n)\}$

输出： $f_M(\bold{x})$

算法：

初始化 $f_0(\bold{x})=0$
对于 $m = 1, 2, . . ., M$
- 计算梯度 $r_{mi} = -\frac{\partial L(\bar{y}_i,f_{m-1}(\bold{x}_i))}{\partial f_{m-1}(\bold{x}_i)}$ ,构建样本 $\{(\bold{x}_1,r_{m1}),...,(\bold{x}_n,r_{mn})\}$
- 拟合 $r_{mi}$ ，得到回归树 $h_m(\bold{x};\theta_m)$
- 更新模型 $f_m(\bold{x})=f_{m-1}(\bold{x}) + h_m(\bold{x};\theta_m)$
得到模型 $f_M(\bold{x})=\sum_{m=1}^Mh_m(\bold{x};\theta_m)$

xgboost

xgboost的第m步的损失函数定义为：

$L({\theta}_{m})=\sum_{i=1}^{N} L\left(\bar{y}_{i}, f_{m}\left(\mathbf{x}_{i}\right)\right)+\Omega\left(h_{m}({\mathbf{x}};\theta_m)\right)$

$\sum_{i=1}^{N} L(\bar{y}_{i}, f_{m-1}(\bold{x}_i)+h_m(\bold{x}_i;\theta_m))+\gamma T + \frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$

其中 $\Omega(*)$ 表示正则项，具体包括： $T$ 表示m棵树叶子节点数量， $w_j$ 表示叶子节点 $j$ 输出值，正则项的含义是希望数的叶子节点数量较少，并且叶子节点的输出值不要出现极值。

由二阶泰勒展开：

$f(x+\Delta x) \simeq f(x)+f^{\prime}(x) \Delta x+\frac{1}{2} f^{\prime \prime}(x) \Delta x^{2}$

得到：

$L（\theta_m）= \sum_{i=1}^{N} L\left(\bar{y}_{i}, f_{m}\left(\mathbf{x}_{i}\right)\right)+\gamma T + \frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$

$\approx \sum_{i=1}^N[L(\bar{y}_i,f_{m-1}(\bold{x}_i)) + g_i * h_m(\bold{x}_i;\theta_m) + \frac{1}{2}h_i * h_m(\bold{x}_i;\theta_m)^2] + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$

其中

$\hat{y}_i^{<m-1>}=f_{m-1}\left({\bold{x}_i}\right), \quad g_i=\frac{\partial L\left(\bar{y}_i, \hat{y}_i^{<m-1>}\right)}{\partial \hat{y}_i^{<m-1>}}, \quad h_i=\frac{\partial^{2} L\left(\bar{y}_i, \hat{y}_i^{<m-1>}\right)}{\partial^{2} \hat{y}_i^{<m-1>}}$

去掉常数项，简化为：

$L(\theta_m) = \sum_{i=1}^N[g_i * h_m(\bold{x}_i;\theta_m) + \frac{1}{2}h_i * h_m(\bold{x}_i;\theta_m)^2] + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$

$=\sum_{j=1}^T[\sum_{\bold{x}_i\in I_j}[g_i * w_j + \frac{1}{2}h_i * w_j^2] + \frac{1}{2}\lambda w_j^2] + \gamma T$

$=\sum_{j=1}^T[w_j\sum_{\bold{x}_i\in I_j}g_i + \frac{1}{2}w_j^2(\sum_{\bold{x}_i\in I_j}[h_i]+\lambda) + \gamma T$

其中 $\bold{x}_i\in I_j$ 表示 $\bold{x}_i$ 落到第 $j$ 个叶子节点。

$\frac{\partial L}{\partial w_j} = 0$

得到：

$w_j^* = -\frac{\sum_{\bold{x}_i\in I_j}g_i}{\lambda + \sum_{\bold{x}_i\in I_j}h_i} \quad (1)$

$L(w_j^*) = -\frac{1}{2}\sum_{j=1}^T\frac{(\sum_{\bold{x}_i\in I_j}g_i)^2}{\lambda + \sum_{\bold{x}_i\in I_j}h_i} + \gamma T \quad (2)$

根据损耗函数决定节点分裂方式，假设根据某个特征和特征值将样本分裂成 $I_L,I_R$ 两个集合，定义节点分裂的增益为：

$\frac{1}{2}[\frac{G_L^2}{H_L+\lambda} + \frac{G_R^2}{H_R + \lambda}- \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}] - \gamma \quad (3)$

$G_L=\sum_{\bold{x}_i\in I_L}g_i$

$G_R=(\sum_{\bold{x}_i\in I_R}g_i)^2$

$H_L = \sum_{\bold{x}_i\in I_L} h_i$

$H_R = \sum_{\bold{x}_i\in I_R} h_i$

xgboost算法过程：

输入：训练集 $\{(\bold{x}_1,y_1),..., (\bold{x}_n,y_n)\}$

输出： $f_M(\bold{x})$

算法：

初始化 $f_0(\bold{x}) = 0$
对于 $m = 1, . . ., M$
- 节点分裂增益定义（3）找到最优的分裂特征和分裂值进行分裂
- 根据（1）计算叶子节点输出值，得到第m个树 $h_m(\bold{x};\theta_m)$
- 更新模型 $f_m(\bold{x}) = f_{m-1}(\bold{x})-h_m(\bold{x};\theta_m)$
得到模型 $f_M(\bold{x})$

LambdaMart

$dcg@T=\sum_{i=1}^T\frac{2^{lable(i)}-1}{log(i+1)}$

$ndcg@T=\frac{dcg@T}{maxDcg@T}$

$\Delta NDCG(i,j) = |ndcg(originalSequence) - ndcg(sequenceAfterSwap(i,j))|$

$\lambda_{ij} = \frac{-\sigma }{1+e^{\sigma(s_i-s_j)}}|\Delta NDCG(i,j)|$

$\lambda_i = \sum_{j:lable(i)>lable(j)} \lambda_{ij}-\sum_{j:label(j)>lable(i)} \lambda_{ij}$

输入：树的数量M，训练数据集 $\{(\bold{x}_1,label_1),...,(\bold{x}_n,label_n)\}$ ，学习率 $\eta$

输出： $f_M(\bold{x})$

算法

初始化 $f_0(\bold{x}) = 0$
对于 $m = 1, . . ., M$
- 计算一阶导，也就是 $x_i$ 的 $\lambda$ 梯度，记为 $y_i = \lambda_i$ 值，构成 $\{(\bold{x}_1,\lambda_1),...,(\bold{x}_n,\lambda_n)\}$
- 计算二阶导 $w_i = \frac{\partial y_i}{\partial f_{m-1}(\bold{x}_i)}$ ，用于下面基于牛顿法的优化
- 回归树拟合 $\lambda_i$ ，得到决策树 $f_m(\bold{x})$
- 计算叶子节点的值 $\gamma_{mk} = \frac{\sum_{x_i\in I_k} y_i}{\sum_{x_i\in I_k} w_i}$
- 更新模型 $f_m(\bold{x}) = f_{m-1}(\bold{x}) + h_m(\bold{x})$
- 更新数据得分为 $f_m(\bold{x}_i)$ ，根据最新得分重排序训练集
得到模型 $f_M(\bold{x})$