XGboot
Xgboost是GBDT思想算法实现的一种,我们主要先讲一下原理推导,再到实现的细节。
优化的目标公式:
基于风险最小化,优化的目标函数=损失项+树的结构化约束
树的结构化主要有两部分组成:一个是树的叶子节点个数,第二个是每个叶子节点的权重,权重实质就是使每个叶子节点样本中损失最小的预测值(此前,楼主看了半天也不明白,这权重到底是啥)
——————————————————————————————————
为什么这里会对叶子节点的预测值进行L2正则呢?
主要是考虑到,XGBoost是多个树的线性组合,如果某一棵的预测权重非常大,则这颗树非常有可能过拟合。
——————————————————————————————————
现在,我们对上面优化目标进行优化,使用泰勒公式展开后,再求解令损失最小的权重
此时,我们对权重w求导:
将w代入到原公式:
最终,目标函数越小,代表这棵树的结构越好。
搞定了目标优化,我们开始进行建树,分裂节点。
Xgboost是很多CART回归树集成
初始时,是单棵树树根,然后进行节点分裂。分裂到一定程度,形成一棵树,再创建第二颗树继续分裂,直到满足某种条件。
算法流程如下:
这里涉及到两个部分:节点分裂的方法,分裂/建树停止的条件。
- 节点分裂的方法
每次尝试对已有的叶子