不能求二阶导的metrics，不是好的objective?!

量化风云

于 2024-07-16 07:30:00 发布

阅读量2.4k

点赞数 74

分类专栏：量化交易文章标签：量化交易量化课程机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hbaaron/article/details/140450873

版权

请添加图片描述

请添加图片描述接上一篇。

今天我们要分析 MAPE 这个函数在论文中的使用。以此为契机，适当深入一点机器学习的原理，讲以下两个知识点：

1. 损失函数和度量函数
2. XGBoost模型，因子数据是否要标准化

损失函数与度量函数

在机器学习中，有两类重要的函数，一类是目标函数(objective function)，又称损失函数(loss function)；一类是度量函数(metrics)。

75%

损失函数用于模型训练。在训练过程中，通过梯度下降等方法，使得损失函数的值不断减小，直到无法继续下降为止，模型就训练完成。

训练完成之后的模型，将在test数据集上进行测试，并将预测的结果与真实值进行对比。为了将这个对比过程数值化，我们就引入了度量函数(metrics)。

在sklearn中，提供了大量的损失函数和度量函数。下图列举了部分Sklearn提供的损失函数和度量函数：

可以看出，度量函数的个数远多于损失函数，这是为什么呢？

在论文中，论文作者并没有披露他通过xgboost训练的具体过程，只是说直接使用了xgboost的database，这个表述有点奇怪，我们可以理解为在参数上使用了XGBoost的默认值好了。但是他重点提到了使用MAPE，从过程来看，是在把MAPE当成度量函数进行事后评估。

在XGBoost中，如果没有特别指定目标函数，那么默认会使用带正则惩罚的RMSE(rooted mean square error)函数。RMSE也可以作为度量函数，在论文中，作者没有使用RMSE作为度量函数，而是选择了MAPE(mean absolute percentage error)，原因何在？如果MAPE在这个场景下比RMSE更好，又为何不在训练中使用MAPE？

看上去无论目标函数也好，度量函数也好，都要使得预测值与真实值越接近越好。既然都有这个特性，为什么还需要区分这两类函数呢？

要回答这些问题，就要了解XGBoost的训练原理，核心是：它是如何求梯度下降的。

XGBoost：二阶泰勒展开

XGBoost是一种提升(Boosting)算法，它通过多个弱学习器叠加，构成一个强学习器。每次迭代时，新的树会修正现有模型的残差，即预测值与真实值之间的差异。这个差异的大小，就由目标函数来计算。

在XGBoost中，多个弱学习器的叠加采用了加法模型，即最终的预测是所有弱学习器输出的加权和。这种模型允许我们使用泰勒展开来近似损失函数，从而进行高效的优化。

XGBoost对目标函数的优化是通过泰勒二阶展开，再求二阶导来实现的。使用二阶导数，XGBoost可以实现更快速的收敛，因为它不仅考虑了梯度的方向，还考虑了损失函数的形状。

$\approx f(a) + f'(a)(x-a) + \frac{f''(a)}{2!}(x-a)^2$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

量化风云 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。