给定样本集合\(\{(x_i,y_i)|i=1,\cdots,N\}\),对于分类或者回归有不同的损失函数,假设在某个样本\(i\)上的损失函数为
$$L(y_i,F(x_i))$$
其中F是学习到的决策函数。
在GBDT中F是一簇函数的加权和,即
$$F=\sum_{i=1}^m \gamma_i f_i$$
对于所有的样本,gbdt的损失函数为
$$\sum_{i=1}^N L(y_i,F(x_i))$$
记\(F_j = \sum_{i=1}^j \gamma_j f_j\),采用贪心的策略
$$F_j = F_{j - 1} + \mathop{argmin}_{f_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i))$$
借助梯度下降的思想,对后面一项进行一阶泰勒展开
$$\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i)) \approx \sum_{i=1}^N L(y_i,F_{j-1}(x_i)) + \sum_{i=1}^N g_i f_j(x_i)$$
则可取
$$f_j(x_i) = -\gamma_j g_i$$
因此我们可以通过用CART来先拟合\(g_i\)再通过线性搜索得到\(\gamma_j\),记拟合得到的基函数为\(g_i(x_i)\)。
$$\gamma_j = \mathop{argmin}_{\gamma_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) - \gamma_j g_i(x_i))$$
由于在建立CART的时候每个样本都被映射到了一个固定的叶子节点,可以在每个叶子节点取最优从而得到叶子节点的取值,对于叶子节点\(m\)所对应的样本集\(R_{jm}\)
$$\gamma_{jm}=\mathop{argmin}_{\gamma_{jm}}\sum_{x_i\in R_{jm}} L(y_i,F_{j-1}(x_i) + \gamma)$$
在防止过拟合方面一般采用控制叶子节点的数目,控制树的深度,每一步对样本进行随机采样,使用衰减因子降低每一棵树的影响。