gbdt基本原理

最新推荐文章于 2022-08-25 09:18:44 发布

LIHONGFEI1234

最新推荐文章于 2022-08-25 09:18:44 发布

阅读量218

点赞数

本文链接：https://blog.csdn.net/LIHONGFEI1234/article/details/104414583

版权

gbdt 基本原理

为什么要建立多棵树
- 函数空间上的梯度下降
- 残差推导
建树过程
多分类问题

为什么要建立多棵树

函数空间上的梯度下降

设样本为 $\begin{array}{rcl}(x^j,y^j),j=1,2,\cdots,n\end{array}$
对于回归问题，损失函数为
$\begin{array}{rcl}L&=&\sum_{j=1}^nl(x^j,y^j,f^j)\\&=&L(f^1,f^2,\cdots,f^j)\\&=&L(F)\end{array}$
对于二分类问题，损失函数为
$\begin{array}{rcl}L&=&\sum_{j=1}^nl(x^j,y^j,\sigma(f^j))\\&=&L(f^1,f^2,\cdots,f^j)\\&=&L(F)\end{array}$
F是多维函数 $(f^1,f^2,\cdots,f^j)$
目的要求
$F=\underset F{argmin}L(F)$

根据梯度下降有
$F_0=F_0\\F_1=F_0-\eta\nabla L\vert_{F=F_0}\\\cdots\\F_i=F_{i-1}-\eta\nabla L\vert_{F=F_{i-1}}$
所以有
$F=F_0+\eta\sum_{i=0}^m-\nabla L\vert_{F=F_i}$
取每个维度，
$\begin{array}{rcl}f^j&=&f_0^j+\eta\sum_{i=0}^m-{\textstyle\frac{\partial L}{\partial f^j}}\vert_{f^j=f_i^j}\\&=&f_0^j+\eta\sum_{i=0}^m-{\textstyle\frac{\partial l}{\partial f^j}}\vert_{f^j=f_i^j}\\j&=&1,2,\cdots,n\end{array}$
把 $f^j$ 看成函数 $f$ ，即
$\begin{array}{rcl}f&=&\left\{\begin{array}{c}\begin{array}{c}\begin{array}{c}f^1,x=x^1\\f^2,x=x^2\end{array}\end{array}\\\cdots\\f^n,x=x^n\end{array}=f(x)\right.\end{array}$
所以
$f=f_0+\eta\sum_{i=0}^m-{\textstyle\frac{\partial l}{\partial f}}\vert_{f=f_i}$
令
$T_0=f_0\\T_1=-{\textstyle\frac{\partial l}{\partial f}}\vert_{f=f_0}\\\cdots\\T_i=-{\textstyle\frac{\partial l}{\partial f}}\vert_{f=fi}$
则
$f=T_0\;+\eta T_1+\cdots+\eta T_i$
$T_0$ 为初始函数，可以随意定。
对于基分类器 $T_i$ ，则有
$T_i(x)=\left\{\begin{array}{c}\begin{array}{c}\begin{array}{c}-\frac{\partial l}{\partial f}\vert_{f=f_i^1},x=x^1\\-\frac{\partial l}{\partial f}\vert_{f=f_i^2},x=x^2\end{array}\end{array}\\\cdots\\-\frac{\partial l}{\partial f}\vert_{f=f_i^n},x=x^n\end{array}\right.$

残差推导

对于回归问题，取平方损失 $l=(y^j-f)^2$ ，则有
$T_i=-{\textstyle\frac{\partial l}{\partial f}}\vert_{f=f_i}=2(f_i-y^j)$
对于二分类问题，取交叉熵损失 $l=y^jln(\sigma(f))+(1-y^j)ln(1-\sigma(f))$ ，则有
$T_i=-{\textstyle\frac{\partial l}{\partial f}}\vert_{f=f_i}=\sigma(f_i)-y^j$

建树过程

第一棵树

第一棵树只有一个根节点，即对所有的 $x^j$ ，都有唯一的输出c。
对于回归问题
$T_0=c=\underset c{argmin}(L(c))\\=\underset c{argmin}(\sum_{j=1}^nl(x^j,y^j,c))\\=\underset c{argmin}(\sum_{j=1}^n{(c-y^j)}^2)$
求导得到
$\frac{\partial L}{\partial c}=2\sum_{j=1}^nc-y^j=0$
解得
$c=\frac1n\sum_{j=1}^ny^j$
对于二分类问题
$T_0=c=\underset c{argmin}(L(c))\\=\underset c{argmin}(\sum_{j=1}^nl(x^j,y^j,\sigma(c)))\\=\underset c{argmin}(\sum_{j=1}^ny^jln(\sigma(c))+(1-y^j)ln(1-\sigma(c)))$
求导得到
$\frac{\partial L}{\partial c}=\sum_{j=1}^n(\sigma(c)-y^j)=0$
解得
$c=\sigma^{-1}(\frac1n\sum_{j=1}^ny^j)$

第i棵树

如何分裂

这里选择CART回归树，对特征排序，遍历分裂点，把样本分为两个组，L和R
$G=min(\sum_{y^j\in L}{(y^j-c_1)}^2+\sum_{y^j\in R}{(y^j-c_2)}^2)$
解得
$c_1=\frac1L\sum_{y^j\in L}y^j\\c_2=\frac1R\sum_{y^j\in R}y^j$
取能够使G达到最小的特征及其对应的分裂点

如何取值

如何计算c
对于回归问题
$c=\underset c{argmin}(\sum_{y^j\in R}l(x^j,y^j,f_i^j+c))\\=\underset c{argmin}{(\sum_{y^j\in R}(f_i^j+c-y^j)}^2)$
解得
$c=\frac1R\sum_{y^j\in R}(y^j-f_i^j)$
对于分类问题
$c=\underset c{argmin}(\sum_{y^j\in R}l(x^j,y^j,\sigma(f_i^j+c)))\\=\underset c{argmin}{(\sum_{y^j\in R}} y^jln(\sigma(f_i^j+c))+(1-y^j)ln(1-\sigma(f_i^j+c)))$
令导数为0
$\frac{\partial L}{\partial c}=\sum_{j\in R}(y^j-\sigma(f_i^j+c))=0$
该函数的导数为
$\frac{\partial^2L}{\partial c^2}=-\sum_{j\in R}\sigma(f_i^j+c)(1-\sigma(f_i^j+c))<0$
函数递减，图像如下
在这里插入图
利用牛顿一阶近似求零点，左边直线方程为
$y = k x + b$
$k=\frac{\partial^2L}{\partial c^2}|_{c=0}=-\sum_{j\in R}\sigma(f_i^j)(1-\sigma(f_i^j))\\ b=\frac{\partial L}{\partial c}|_{c=0}=\sum_{j\in R}y^j-\sigma(f_i^j)$
所以左边比较靠近c的红色圆圈的点的坐标为
$\widehat c=-\frac bk=\frac{\sum_{j\in R}y^j-\sigma(f_i^j)}{\sum_{j\in R}\sigma(f_i^j)(1-\sigma(f_i^j))}$

多分类问题

假如有K>=3种分类，那么gbdt会创建K串树，每一串会在各自的梯度上分裂增长。但是梯度计算是相互依赖的。
$L=\sum_{j=1}^nl(x^j,y^j,s(f^j))=\sum_{j=1}^n\sum_{k=1}^Ky^{jk}\ln{\textstyle\frac{e^{f_i^{jk}}}{\textstyle\sum_{t=1}^Ke^{f_i^{jt}}}}$
如果 $y^{jk} = 1$ ，则
$\frac{\partial L}{\partial f_i^{jk}}=\frac{\sum_{t=1}^Ke^{f_i^{jt}}}{\displaystyle e^{f_i^{jk}}}{\textstyle\frac{e^{f_i^{jk}}\sum_{t=1}^Ke^{f_i^{jt}}\;-\;{(e^{f_i^{jk}})}^2}{\textstyle{(\sum_{t=1}^Ke^{f_i^{jt}})}^2}=1-}\frac{e^{f_i^{jk}}}{\displaystyle\sum\nolimits_{t=1}^Ke^{f_i^{jt}}}$
如果 $y^{jk} = 0$ ，则
$\frac{\partial L}{\partial f_i^{jk}}=-\frac{e^{f_i^{jk}}}{\displaystyle\sum\nolimits_{t=1}^Ke^{f_i^{jt}}}$
所以
$\frac{\partial L}{\partial f_i^{jk}}=y^{jk}-\frac{e^{f_i^{jk}}}{\displaystyle\sum\nolimits_{t=1}^Ke^{f_i^{jt}}}$
公式编辑网址
http://www.wiris.com/editor/demo/en/developers

LIHONGFEI1234

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
gbdt基本原理

gbdt 基本原理为什么要建立多棵树函数空间上的梯度下降残差推导建树过程第一棵树第i棵树如何分裂如何取值多分类问题为什么要建立多棵树函数空间上的梯度下降设样本为(xj,yj),j=1,2,⋯ ,n\begin{array}{rcl}(x^j,y^j),j=1,2,\cdots,n\end{array}(xj,yj),j=1,2,⋯,n对于回归问题，损失函数为L=∑j=1nl(xj,yj...
复制链接

扫一扫