集成学习--XGB

最新推荐文章于 2024-05-19 21:28:12 发布

Dxy17

最新推荐文章于 2024-05-19 21:28:12 发布

阅读量402

点赞数

分类专栏：机器学习文章标签： XGB

本文链接：https://blog.csdn.net/m0_37548423/article/details/86744254

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

算法原理与损失函数

如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义。首先明确下我们的目标，希望建立K个回归树，使得树群的预测值尽量接近真实值（准确率）而且有尽量大的泛化能力（更为本质的东西），从数学角度看这是一个泛函最优化，多目标，看下目标函数：

其中i表示第i个样本，l((y^i−yi)表示第i个样本的预测误差，误差越小越好，后面 $\sum_{k}\Omega f(k)$ 表示树的复杂度的函数，越小复杂度越低，泛化能力越强，表达式为：

T表示叶子节点的个数，w表示节点的数值。

目标函数由两部分构成，第一部分用来衡量预测分数和真实分数的差距，另一部分则是正则化项。正则化项同样包含两部分，T表示叶子结点的个数，w表示叶子节点的分数。γ可以控制叶子结点的个数，λ可以控制叶子节点的分数不会过大，防止过拟合。

直观上看，目标要求预测误差尽量小，叶子节点尽量少，节点数值尽量不极端（这个怎么看，如果某个样本label数值为4，那么第一个回归树预测3，第二个预测为1；另外一组回归树，一个预测2，一个预测2，那么倾向后一种，为什么呢？前一种情况，第一棵树学的太多，太接近4，也就意味着有较大的过拟合的风险）

分裂节点算法

XGBoost利用贪婪算法，遍历所有特征的所有特征划分点，使用上式目标函数值作为评价函数。具体做法就是分裂后的目标函数值比单子叶子节点的目标函数的增益，同时为了限制树生长过深，还加了个阈值，只有当增益大于该阈值才进行分裂。

缺失值处理

　　原始论文中关于缺失值的处理将其看与稀疏矩阵的处理一样。在寻找分裂点的时候，不会对该特征为缺失的样本进行遍历统计，只对该列特征值为非缺失的样本上对应的特征值进行遍历。在逻辑实现上，为了保证完备性，会分别处理将缺失该特征值的样本分配到左叶子结点和右叶子结点的两种情形，计算增益后选择增益大的方向进行分裂即可。可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子树。

优缺点

优点：

xgBoosting对代价函数做了二阶Talor展开，引入了一阶导数和二阶导数；
当样本存在缺失值是，xgBoosting能自动学习分裂方向；
xgBoosting的代价函数引入正则化项，控制了模型的复杂度，正则化项包含全部叶子节点的个数，每个叶子节点输出的score的L2模的平方和。正则项降低了模型的方差，防止模型过拟合；
xgBoosting在每次迭代之后，为叶子结点分配学习速率，降低每棵树的权重，减少每棵树的影响，为后面提供更好的学习空间；
可并行的近似直方图算法，树结点在进行分裂时，需要计算每个节点的增益，若数据量较大，对所有节点的特征进行排序，遍历的得到最优分割点，这种贪心法异常耗时，这时引进近似直方图算法，用于生成高效的分割点，即用分裂后的某种值减去分裂前的某种值，获得增益，为了限制树的增长，引入阈值，当增益大于阈值时，进行分裂；

缺点：

xgBoosting采用预排序，在迭代之前，对结点的特征做预排序，遍历选择最优分割点，数据量大时，贪心法耗时；
xgBoosting采用level-wise生成决策树，同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合，但很多叶子节点的分裂增益较低，没必要进行跟进一步的分裂，这就带来了不必要的开销。