XGBoost全称 “Extreme Gradient Boosting“,陈天奇大佬提出来的梯度提升模型。
Part A: 目标函数推导
目标函数的基本形式
模型对于某个样本的预测值为:
是基学习器,最终模型是多个基学习器
最初的目标函数可以写成
:是前t-1个集成学习器对样本的预测值
:是当前学习器对样本的预测值
:是第t个学习器的正则项
对目标函数进行泰勒二阶展开
:为
函数对
的一阶导数
:为
函数对
的二阶导数
正则项
接下来,将正则项具体化为如下的式子
表示叶子节点的个数,模型中将叶子节点的个数作为L1正则项,将叶子节点的权重值作为L2正则项。
这个叶子节点的权重,有的资料上成为叶子节点上输出的score,实际上就是预测值。
化简
并将原本单独的样本按照最终所在的叶子节点进行归类,令