选择合适的回归损失函数

最新推荐文章于 2024-01-04 11:32:08 发布

zephyrji96

最新推荐文章于 2024-01-04 11:32:08 发布

阅读量696

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_36552489/article/details/103840105

版权

深度学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

机器学习中的所有算法都依赖于最小化(最大化可转化为最小化)某一个函数，我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉，梯度下降就像从山顶滑下，目的是到达山脉的最低点。

没有一个损失函数可以适用于所有类型的数据。损失函数的选择取决于许多因素，包括是否有离群点，机器学习算法的选择，运行梯度下降的时间效率，是否易于找到函数的导数，以及预测结果的置信度。这个博客的目的是帮助你了解不同的损失函数。损失函数可以大致分为两类：分类损失（Classification Loss）和回归损失（Regression Loss）。此篇主要介绍回归损失和pytorch中相应的函数调用。

640?wx_fmt=png

回归损失

1、均方误差，二次损失，L2损失（Mean Square Error, Quadratic Loss, L2 Loss）

均方误差（MSE）是最常用的回归损失函数。MSE是目标变量与预测值之间距离平方之和。

640?wx_fmt=png

下面是一个MSE函数的图，其中真实目标值为100，预测值在-10,000至10,000之间。预测值（X轴）= 100时，MSE损失（Y轴）达到其最小值。损失范围为0至∞。

640?wx_fmt=png

import torch.nn as nn

loss = nn.MSELoss()
input = torch.randn(3, 5, requires_grad=True)
target = torch.randn(3, 5)
output = loss(input, target)
output.backward()

2、平均绝对误差，L1损失（Mean Absolute Error, L1 Loss）

平均绝对误差（MAE）是另一种用于回归模型的损失函数。MAE是目标变量和预测变量之间差异绝对值之和。因此，它在一组预测中衡量误差的平均大小，而不考虑误差的方向。（如果我们也考虑方向，那将被称为平均偏差（Mean Bias Error, MBE），它是残差或误差之和）。损失范围也是0到∞。

640?wx_fmt=png

import torch.nn as nn

loss = nn.L1Loss()
input = torch.randn(3, 5, requires_grad=True)
target = torch.randn(3, 5)
output = loss(input, target)
output.backward()

MSE vs MAE （L2损失 vs L1损失）

对应python代码：

＃true：真正的目标变量数组

＃pred：预测数组


def mse(true, pred):

   return np.sum(((true – pred)**2))

def mae(true, pred):

   return np.sum(np.abs(true – pred))


＃也可以在sklearn中使用

from sklearn.metrics import mean_squared_error

from sklearn.metrics import mean_absolute_error

让我们来看看两个例子的MAE值和RMSE值（RMSE，Root Mean Square Error，均方根误差，它只是MSE的平方根，使其与MAE的数值范围相同）。在第一个例子中，预测值接近真实值，观测值之间误差的方差较小。第二个例子中，有一个异常观测值，误差很高。左：误差彼此接近右：有一个误差和其他误差相差很远

由于MSE对误差（e）进行平方操作（y - y_predicted = e），如果e> 1，误差的值会增加很多。如果我们的数据中有一个离群点，e的值将会很高，将会远远大于|e|。这将使得和以MAE为损失的模型相比，以MSE为损失的模型会赋予更高的权重给离群点。在上面的第二个例子中，以RMSE为损失的模型将被调整以最小化这个离群数据点，但是却是以牺牲其他正常数据点的预测效果为代价，这最终会降低模型的整体性能。

MAE损失适用于训练数据被离群点损坏的时候（在训练数据而非测试数据中，我们错误地获得了不切实际的过大正值或负值）。

直观来说，我们可以像这样考虑：对所有的观测数据，如果我们只给一个预测结果来最小化MSE，那么该预测值应该是所有目标值的均值。但是如果我们试图最小化MAE，那么这个预测就是所有目标值的中位数。我们知道中位数对于离群点比平均值更鲁棒，这使得MAE比MSE更加鲁棒。

使用MAE损失（特别是对于神经网络）的一个大问题是它的梯度始终是相同的，这意味着即使对于小的损失值，其梯度也是大的。这对模型的学习可不好。为了解决这个问题，我们可以使用随着接近最小值而减小的动态学习率。使0附近是光滑的曲线，即常用的Smooth_L1损失。

import torch.nn as nn

loss = nn.SmoothL1Loss()
input = torch.randn(3, 5, requires_grad=True)
target = torch.randn(3, 5)
output = loss(input, target)
output.backward()

如果离群点是会影响业务、而且是应该被检测到的异常值，那么我们应该使用MSE。另一方面，如果我们认为离群点仅仅代表数据损坏，那么我们应该选择MAE作为损失。

3、Huber Loss，平滑的平均绝对误差

Huber Loss对数据离群点的敏感度低于平方误差损失。它在0处也可导。基本上它是绝对误差，当误差很小时，误差是二次形式的。误差何时需要变成二次形式取决于一个超参数，(delta)，该超参数可以进行微调。当 𝛿 ~ 0时， Huber Loss接近MAE，当 𝛿 ~ ∞（很大的数）时，Huber Loss接近MSE。delta的选择非常重要，因为它决定了你认为什么数据是离群点。大于delta的残差（残差在数理统计中是指实际观察值与估计值（拟合值）之间的差。）用L1最小化（对较大的离群点较不敏感），而小于delta的残差则可以“很合适地”用L2最小化。