机器学习最常用的5个“”回归损失函数”

最新推荐文章于 2024-07-22 22:12:59 发布

张之海

最新推荐文章于 2024-07-22 22:12:59 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：回归损失函数机器学习

本文链接：https://blog.csdn.net/ZZh1301051836/article/details/89525878

版权

机器学习专栏收录该内容

24 篇文章 3 订阅

订阅专栏

本文系总结自文章机器学习大牛最常用的5个回归损失函数，你知道几个？。
详细讲解请直接前往，本文只作为作者的笔记列出。

误差=真实值-预测值。

1 MAE（L1损失）与 MSE （L2损失）

1.1 MAE与MSE的定义

平均绝对值误差（MAE，也称L1损失）
在这里插入图片描述

均方误差(MSE，也称L2损失)
在这里插入图片描述

1.2 MAE与MSE的比较

简单来说，MSE计算简便，但MAE对异常点有更好的鲁棒性。
让我们观察MAE和RMSE（即MSE的平方根，同MAE在同一量级中）在两个例子中的计算结果。第一个例子中，预测值和真实值很接近，而且误差的方差也较小。第二个例子中，因为存在一个异常点，而导致误差非常大。
在这里插入图片描述
左图：误差比较接近右图：有一个误差远大于其他误差
其中 $MAE=\frac{1}{5}\sum_{i=1}^5{|Error|}$ ， $MSE=\sqrt{\frac{1}{5}\sum_{i=1}^5{Error^2}}$ 。

MSE对误差取了平方（令e=真实值-预测值），因此若e>1，则MSE会进一步增大误差。如果数据中存在异常点，那么e值就会很大，而e则会远大于|e|。

直观上可以这样理解：如果我们最小化MSE来对所有的样本点只给出一个预测值，那么这个值一定是所有目标值的平均值。但如果是最小化MAE，那么这个值，则会是所有样本点目标值的中位数。众所周知，对异常值而言，中位数比均值更加鲁棒，因此MAE对于异常值也比MSE更稳定。

1.3 怎么选择MAE和MSE呢？

如果异常点代表在商业中很重要的异常情况，并且需要被检测出来，则应选用MSE损失函数。
相反，如果只把异常值当作受损数据，则应选用MAE损失函数。

总而言之，处理异常点时，L1损失函数更稳定，但它的导数不连续，因此求解效率较低。
L2损失函数对异常点更敏感，但通过令其导数为0，可以得到更稳定的封闭解。

1.3 MAE与MSE都存在的问题

二者兼有的问题是：在某些情况下，上述两种损失函数都不能满足需求。例如，若数据中90%的样本对应的目标值为150，剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点，而对所有样本的预测值都为150。

这是因为模型会按中位数来预测。而使用MSE的模型则会给出很多介于0到30的预测值，因为模型会向异常点偏移。上述两种结果在许多商业场景中都是不可取的。

这些情况下应该怎么办呢？最简单的办法是对目标变量进行变换。而另一种办法则是换一个损失函数，这就引出了下面要讲的第三种损失函数，即Huber损失函数。

2 Huber损失函数

2.1 Huber损失定义

Huber损失，平滑的平均绝对误差。
Huber损失对数据中的异常点没有平方误差损失那么敏感。它在0也可微分。本质上，Huber损失是绝对误差，只是在误差很小时，就变为平方误差。误差降到多小时变为二次误差由超参数δ（delta）来控制。当Huber损失在[0-δ,0+δ]之间时，等价为MSE，而在[-∞,δ]和[δ,+∞]时为MAE。
在这里插入图片描述
这里超参数delta的选择非常重要，因为这决定了你对与异常点的定义。当残差大于delta，应当采用L1（对较大的异常值不那么敏感）来最小化，而残差小于超参数，则用L2来最小化。

2.2 为何要使用Huber损失

使用MAE训练神经网络最大的一个问题就是不变的大梯度，这可能导致在使用梯度下降快要结束时，错过了最小点。而对于MSE，梯度会随着损失的减小而减小，使结果更加精确。
在这种情况下，Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE，它对异常点更加鲁棒。因此，Huber损失结合了MSE和MAE的优点。但是，Huber损失的问题是我们可能需要不断调整超参数delta。