深度学习损失函数原理分析（二）

最新推荐文章于 2024-07-06 17:06:00 发布

视觉大掌柜

最新推荐文章于 2024-07-06 17:06:00 发布

阅读量1.7k

点赞数

分类专栏：损失函数文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/m0_37628604/article/details/121694400

版权

损失函数专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文详细介绍了L1范数损失（L1_loss）、L2范数损失（L2_loss）以及平滑L1损失（SmoothL1Loss）的原理、代码实现和优缺点。L1损失具有较好的鲁棒性，但可能在接近最优解时收敛慢；L2损失则更稳定，但对异常值敏感。SmoothL1Loss结合了两者优点，通过平滑处理减少了L1的突变和L2的梯度爆炸问题，提高了模型训练的效率和准确性。

摘要由CSDN通过智能技术生成

上一章节主要介绍了均方误差（MSELoss）与交叉熵损失（CrossEntropyLoss）两个损失函数原理及应用，本章将介绍
L1范数损失。
2.4 L1范数损失(L1_loss)
L1_loss表示预测值与真实值之差的绝对值；也被称为最小绝对值偏差（LAD）,绝对值损失函数（LAE）。总的来说，它是把目标值y与估计值f(x)的绝对差值的总和最小化。

在这里插入图片描述
代码：

import numpy as np
import torch
import torch.nn as nn
#数学公式
y=np.array([0,2,3,4,5],dtype=float)
f=np.array([1,0,1,0,0],dtype=float)
output=np.sum(y-f)
print("output:",output)

结果：

output: 12.0

优势：鲁棒性较好。如果需要考虑任一或全部的异常值，那么最小绝对值偏差是更好的选择
缺点：坐标原点（极小值）附近，有折点，不光滑，对于L1损失函数，其导数为常数，当预测值与真实值差异较小时，损失函数导数绝对值任然为1，如果学习率（learning_rate）不变，损失函数将在稳定值附近波动，难以继续收敛达到更高精度。

2.5 L2范数损失
L2范数损失函数被称为最小平方差（LSE）。把预测值f(x)与目标值y的差值的平方和（S)最小化：
在这里插入图片描述
代码：

import numpy as np
import torch
import torch.nn as nn
#数学公式
y=np.array([0,2,3,4,5],dtype=float)
f=np.array([1,0,1,0,0],dtype=float)
output=np.sum(np.square(y-f))
print("output:",output)

结果：

output: 50.0

优势：稳定性较好，L2损失函数处处可导，损失函数求解可以得到一个解析解。
缺点：L2损失函数稳健性较差，因为当误差较大时，损失函数采用平方，对异常值敏感。可能导致梯度爆炸为nan
**L1与L2优缺点对比：**如下图所示。
在这里插入图片描述

2.6 平滑版L1损失（SmoothL1Loss）
从字面意思上看，smooth L1说的是光滑之后的L1，前面说了L1、L2损失函数的缺点，怎么减少这些缺点对模型的影响，从两个方面限制梯度。
1.预测值与目标值差别过大时，梯度值不至于过大；
2.预测值与目标值差别过小时，梯度值足够小。
smooth1损失函数为：
在这里插入图片描述
在smooth L1在x较小时，对x的梯度也会变小，而在x很大时，对x的梯度的绝对值达到上限1，也不会太大以至于梯度爆炸，解决了L1、L2损失缺陷。其函数图像。

如图所示：坐标原点附近导数平滑，在接近极小值时导数非常小，远离坐标导数与L1保持一致，不存在L2梯度爆炸。
总结：本章节主要介绍L1、L2损失函数，根据L1,L2函数缺点，又介绍了Smooth L1损失函数。