XGBOOST—待补充

最新推荐文章于 2022-08-21 14:21:13 发布

沧海磐石

最新推荐文章于 2022-08-21 14:21:13 发布

阅读量280

点赞数

本文链接：https://blog.csdn.net/weixin_40642306/article/details/88857129

版权

XGBOOST

XGBOOST 在目标函数初用了二阶导数来近似残差

在这里插入图片描述

二阶泰勒的优势

为了统一损失函数求导的形式以支持自定义损失函数
使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了xgboost的适用性,

Xgboost官网上有说，当目标函数是MSE时，展开是一阶项（残差）+二阶项的形式（官网说这是一个nice form），而其他目标函数，如log loss的展开式就没有这样的形式。为了能有个统一的形式，所以采用泰勒展开来得到二阶项，这样就能把MSE推导的那套直接复用到其他自定义损失函数上。简短来说，就是为了统一损失函数求导的形式以支持自定义损失函数。当然，这是从为什么会想到引入泰勒二阶的角度来说的
xgboost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了xgboost的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。

对缺失值的处理

xgboost处理缺失值的方法和其他树模型不同。根据作者Tianqi Chen在论文[1]中章节3.4的介绍，xgboost把缺失值当做稀疏矩阵来对待，本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失，选择较优的那一个。如果训练中没有数据缺失，预测时出现了数据缺失，那么默认被分类到右子树

树模型对于缺失值的敏感度较低，大部分时候可以在数据有缺失时使用。
涉及到距离度量(distance measurement)时，如计算两个点之间的距离，缺失数据就变得比较重要。因为涉及到“距离”这个概念，那么缺失值处理不当就会导致效果很差，如K近邻算法(KNN)和支持向量机(SVM)。
线性模型的代价函数(loss function)往往涉及到距离(distance)的计算，计算预测值和真实值之间的差别，这容易导致对缺失值敏感。
神经网络的鲁棒性强，对于缺失数据不是非常敏感，但一般没有那么多数据可供使用。
贝叶斯模型对于缺失数据也比较稳定，数据量很小的时候首推贝叶斯模型。
总结来看，对于有缺失值的数据在经过缺失值处理后：