工业应用中如何选取合适的损失函数（MAE、MSE、Huber）-Pytorch版

最新推荐文章于 2025-01-18 14:30:55 发布

3Ｄ视觉工坊

最新推荐文章于 2025-01-18 14:30:55 发布

阅读量607

点赞数

文章标签：算法 python 神经网络机器学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247613733&idx=3&sn=0f6aea7039257c82f1e115700dfd79fe&chksm=fbfd1611cc8a9f07521e7f4b35b2db7b7c417810081ce645f9f5560461acdff64f2fb16c2665&scene=126&&sessionid=0

版权

作者丨小可乐大魔王@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/378822530

编辑丨极市平台

导读

本文总结了如何针对应用场景选择合适损失函数、对比不同损失函数的优缺点及相关pytorch代码。

直接上结果：

图片截选自本文末尾

正文：

无论在机器学习还是深度学习领域中,损失函数都是一个非常重要的知识点。损失函数有许多不同的类型，根据具体模型和应用场景需要选择不同的损失函数，如何选择模型的损失函数，是作为算法工程师实践应用中最基础也是最关键的能力之一。最近在学习pytorch的时候，参考了很多说明文档和优秀贴文，总结了如何针对应用场景选择合适损失函数、对比不同损失函数的优缺点及相关pytorch代码，用作学习记录，方便自己回顾。内容包括：

基础知识（损失函数、训练目标、训练方法、pytorch）
回归模型损失函数 (MSE、MAE、Huber损失函数的优缺点，总结应用情形）
分类模型损失函数 (熵、最大似然)

一.基础知识

在理解各种损失函数的选择原理之前，先回顾一下损失函数、模型训练、训练方法的相关基本概念

损失函数（Loss Function）： 用来估量模型的预测值 f(x) 与真实值 y 的偏离程度，以下是选择损失函数的基本要求与高级要求：

基本要求：用来衡量模型输出分布和样本标签分布之间的接近程度，
高级要求：在样本分布不均匀地情况下，精确地描述模型输出分布和样本标签之间的接近程度

模型训练（Training）： 训练的过程实质是优化（最小化）损失函数，让 f(x) 与 y 尽量接近。实际上是模型参数拟合的过程（比如使用最小二乘法、梯度下降法求解回归模型中的参数），也可以理解为模型求解的过程（比如使用最大期望法求解概率模型中的参数）。和其他数学建模中的求解参数过程本质上没太大区别。

常用训练方法： 梯度下降算法寻找函数最小值

从梯度下降到 Adam！一文看懂各种神经网络优化算法

一般的损失函数的都是直接计算 batch 的数据，因此返回的 loss 结果都是维度为 batch_size的向量, 值得注意的是, pytorch中很多的损失函数都有 size_average 和 reduce 两个布尔类型的参数，具体内容为：

如果 reduce = False，那么 size_average 参数失效，直接返回向量形式的 loss；
如果 reduce = True，那么 loss 返回的是标量
- 如果 size_average = True，返回 loss.mean();
- 如果 size_average = True，返回 loss.sum();

为了更好地理解损失函数的定义以下代码部分将这两个参数均设置为False

一般来说，工程实践中常用的损失函数大致可以分成两大应用情况：回归（Regression）和分类（Classification）

二.回归模型

1.nn.MSELoss（Mean Square Error）

均方损失函数，其数学形式如下：

这里 loss, x, y 的维度是一样的，可以是向量或者矩阵，i 是下标

以 y-f(x) 为横坐标，MSE 为纵坐标，绘制其损失函数的图形：

MSE 曲线的特点是光滑连续、可导，便于使用梯度下降算法。平方误差有个特性，就是当 yi 与 f(xi) 的差值大于 1 时，会增大其误差；当 yi 与 f(xi) 的差值小于 1 时，会减小其误差。这是由平方的特性决定的。也就是说， MSE 会对误差较大（>1）的情况给予更大的惩罚，对误差较小（<1）的情况给予更小的惩罚。比如说真实值为1，预测10次，有一次预测值为1000，其余次的预测值为1左右，显然loss值主要由1000决定。

优点：收敛速度快- MSE 随着误差的减小，梯度也在减小，这有利于函数的收敛，即使固定学习率，函数也能较快收敛到最小值。

缺点：离群点影响大从Training的角度来看，模型会更加偏向于惩罚较大的点，赋予其更大的权重，忽略掉较小的点的作用，无法避免离群点可能导致的梯度爆炸问题。如果样本中存在离群点，MSE 会给离群点赋予更高的权重，但是却是以牺牲其他正常数据点的预测效果为代价，因此会导致降低模型的整体性能。

pytorch代码实现：

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F

#选择损失函数MSE
loss_func=torch.nn.MSELoss()
#随机生成数据
input=torch.autograd.Variable(torch.randn(3,4))
targets=torch.autograd.Variable(torch.randn(3,4))

#计算loss
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

输出

2.nn.L1Loss&&MAE(Mean Absolute Error)

绝对误差与L1误差，两者的误差都是误差指的就是模型预测值 f(x) 与样本真实值 y 之间距离的平均值其公式如下：

要求 x 和 y 的维度要一样（可以是向量或者矩阵），得到的 loss 维度也是对应一样的。这里用下标 i 表示第 i 个元素

以 y-f(x) 为横坐标，MAE 为纵坐标，绘制其损失函数的图形：

MAE 的曲线呈 V 字型，连续但在 y-f(x)=0 处不可导，计算机求导比较难。且 MAE 大部分情况下梯度相等，这意味着即使对于小的损失值，其梯度也是大的，不利于函数的收敛和模型的学习

优点： 由于MAE 计算的是绝对误差，无论是 y-f(x)>1 还是 y-f(x)<1，没有平方项的作用，惩罚力度相同，因此MAE 相比 MSE 对离群点不过分敏感，拟合直线能够较好地表征正常数据的分布情况，其鲁棒性更好

缺点：MAE训练中梯度始终很大，且在0点连续但不可导，这意味着即使对于小的损失值，其梯度也是大的。这不利于函数的收敛和模型的学习，模型学习速度慢，同时也会导致使用梯度下降训练模型时，在结束时可能会遗漏全局最小值。

MAE曲线连续，但是在(y-f(x)=0)处不可导。

代码实现由torch.nn.L1Loss的参数reduction决定，当参数reduction

选择 ‘mean’ 或’none’时，即为MAE，
选择’sum’时即为L1 loss；

loss_func = torch.nn.L1Loss()
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

输出：

3. nn.SmoothL1Loss（Huber损失函数）

Huber损失函数（平滑平均绝对误差）相比平方误差损失

Huber函数是对MAE和MSE二者的综合，其在函数值为0时，它也是可微分的。，其包含了一个超参数δ，δ 值决定了 Huber侧重于 MSE 还是 MAE 的优秀形式表现

当δ~ 0时，Huber损失会趋向于MSE；
当δ~ ∞（很大的数字），Huber损失会趋向于MAE

分别取 δ = 0.1、δ = 10，绘制相应的 Huber Loss损失函数的图形：：

当 |y−f(x)| > δ 时，梯度一直近似为 δ，能够保证模型以一个较快的速度更新参数
    当 |y−f(x)| ≤ δ 时，梯度逐渐减小，也能够保证模型更精确地得到全局最优值

该函数实际上就是一个分段函数，在[-1,1]光滑，这样解决了MAE的不光滑问题，在[-∞，1）（1，+∞]）区间解决了MSE可能导致的离群点梯度爆炸的问题，即：

Huber 函数它围绕的最小值会减小梯度，且相比MSE，它对异常值更具鲁棒性， Huber 函数同时具备了 MSE 和 MAE 的优点，既弱化了离群点的过度敏感问题，又实现了处处可导的功能

优点： 同时具备了 MSE 和 MAE 的优点，既弱化了离群点的过度敏感问题，又实现了处处可导的功能，收敛速度也快于MAE

相比于MAE损失函数，可以收敛得更快；
相比于MSE损失函数，对离群点、异常值不敏感，梯度变化相对更小，训练时不容易抛出奇怪的结果

注意点： δ超参数需要在训练中选择，常常使用交叉验证法选取合适超参数δ ，超参数的选取直接影响训练的效果的好坏

交叉验证：https://blog.csdn.net/weixin_40475450/article/details/80578943

代码实现：

loss_func = torch.nn.SmoothL1Loss(reduce=False, size_average=False)
input = torch.autograd.Variable(torch.randn(3,4))
target = torch.autograd.Variable(torch.randn(3,4))
loss = loss_func(input, target)
print(input); print(target); print(loss)
print(input.size(), target.size(), loss.size())

代码结果：

总结：工业应用中如何选择合适的损失函数

从误差的角度来说： MSE可以用来评价数据变化的程度，MAE则能更好的反应预测值误差的实际情况
从离群点角度选择： 如果离群点仅仅只是在数据提取的过程中的损坏或者清洗中的错误采样，则无须给予过多关注，那么我们应该选择 MAE，但如果离群点是实际的数据或者重要的数据需要被检测到的异常值，那我们应该选择 MSE
从收敛速度的角度来说： MSE>Huber>MAE
从求解梯度的复杂度来说：MSE 要优于 MAE，且梯度也是动态变化的，MSE能较快准确达到收敛。
从模型的角度选择：对于大多数CNN网络，我们一般是使用MSE而不是MAE，因为训练CNN网络很看重训练速度，对于边框预测回归问题，通常也可以选择平方损失函数，但平方损失函数缺点是当存在离群点（outliers)的时候，这些点会占loss的主要组成部分。对于目标检测FastR CNN采用稍微缓和一点绝对损失函数（smooth L1损失），它是随着误差线性增长，而不是平方增长。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：