对比GBDT做回归,二分类,多分类相同点:
都是负梯度(每颗小树)拟合残差 yi-yi_hat
分裂指标都是MSE
不同点:
初始化
做回归时,可以初始化为0,也可以初始化为均值
二分类:初始化为对数几率
多分类:初始化为0,或者统计各个类别的占比作为初始值。
叶子节点分值计算
回归是通过求平均计算叶子上的分值
二分类:?
多分类交叉熵:?
树结构和叶子节点分值决定树结构。
二分类如何计算叶子节点分值
c代表fm(x)小树,上面的公式的意思时m时刻的小树分值是多少时,得到的预测值Fm-1(xi)+fm(x)与真实值yi的loss最小
得到第m棵小树第j个叶子结点的分值:
m代表第m时刻所对应的这棵小树,j代表第j个叶子节点,代表第j个叶子节点的所有样本,那么分子的意思就是把j个叶子节点里面的所有样本所对应的残差加在一起
分母:(第j个叶子节点所有的样本真实标签-残差)*(1-第j个叶子节点所有的样本真实标签+残差)加和
另一种表达方式
这样就能计算得到m棵树每个叶子节点的分值。
多分类如何计算叶子节点分值
(其实就是GBDT二分类的公式乘上了,只要记住二分类的公式就可以)
第m时刻(轮迭代),第k颗小树,第j个叶子节点的分值