GBDT算法

Gradient Boosting的重要代表有GBDT，它是通过不断改进估算来实现的，下面以简单情况来描述其思路。

设训练集为 $D=\{\boldsymbol{x}_i,y_i\}_{i=1}^m$ ，其中， $y_i$ 为连续型，即为回归问题，对于二分类问题取 $y_i$ 为属于正例的概率即可。

第0次估值（即初始化）：

数据集 $D$ 中所有样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^0=\frac{1}{m}\sum_{i=1}^my_i$ （常数）。
推广到所有的 $\boldsymbol{x}$ ： $F_0(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^my_i$ 。
这时，所有样本的预测值都是一样的，显然不靠谱，好在它只是个初始化。数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^1=y_i-\hat{y}_i^0$ ，形成数据集 $D_1=\{\boldsymbol{x}_i,{\varepsilon}_i^1\}_{i=1}^m$ ，在 $D_1$ 上使用CART树【西瓜书第4.2.3节】进行回归，学习得到 $h_1(\boldsymbol{x})$ 。

第1次估值：

对任意的 $\boldsymbol{x}$ ： $F_1(\boldsymbol{x})=F_0(\boldsymbol{x})+h_1(\boldsymbol{x})$ （对上次的估值用残差校正）。
数据集 $D$ 中样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^1=F_1(\boldsymbol{x}_i)$ 。

这时，数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^2=y_i-\hat{y}_i^1$ ，形成数据集 $D_2=\{\boldsymbol{x}_i,{\varepsilon}_i^2\}_{i=1}^m$ ，在 $D_2$ 上使用CART树学习得到 $h_2(\boldsymbol{x})$ 。

第2次估值：

对任意的 $\boldsymbol{x}$ ： $F_2(\boldsymbol{x})=F_1(\boldsymbol{x})+h_2(\boldsymbol{x})$ （对上次的估值用残差校正）。
数据集 $D$ 中样本 $\boldsymbol{x}_i$ ： $\hat{y}_i^2=F_2(\boldsymbol{x}_i)$ 。

这时，数据集 $D$ 中样本 $\boldsymbol{x}_i$ 的残差为： ${\varepsilon}_i^3=y_i-\hat{y}_i^2$ ，形成数据集 $D_3=\{\boldsymbol{x}_i,{\varepsilon}_i^3\}_{i=1}^m$ ，在 $D_3$ 上使用CART树学习得到 $h_3(\boldsymbol{x})$ 。

如此类推，得到递推公式
$\begin{align} F_{k+1}(\boldsymbol{x})=F_k(\boldsymbol{x})+h_{k+1}(\boldsymbol{x}) \tag{8.31} \end{align}$
由此得到集成公式
$\begin{align} F_T(\boldsymbol{x})=F_0(\boldsymbol{x})+\sum_{i=1}^Th_i(\boldsymbol{x}) \tag{8.32} \end{align}$