深度学习损失函数原理分析(二)

本文详细介绍了L1范数损失(L1_loss)、L2范数损失(L2_loss)以及平滑L1损失(SmoothL1Loss)的原理、代码实现和优缺点。L1损失具有较好的鲁棒性,但可能在接近最优解时收敛慢;L2损失则更稳定,但对异常值敏感。SmoothL1Loss结合了两者优点,通过平滑处理减少了L1的突变和L2的梯度爆炸问题,提高了模型训练的效率和准确性。
摘要由CSDN通过智能技术生成

上一章节主要介绍了均方误差(MSELoss)与交叉熵损失(CrossEntropyLoss)两个损失函数原理及应用,本章将介绍
L1范数损失。
2.4 L1范数损失(L1_loss)
L1_loss表示预测值与真实值之差的绝对值;也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。总的来说,它是把目标值y与估计值f(x)的绝对差值的总和最小化。

在这里插入图片描述
代码:

import numpy as np
import torch
import torch.nn as nn
#数学公式
y=np.array([0,2,3,4,5],dtype=float)
f=np.array([1,0,1,0,0],dtype=float)
output=np.sum(y-f)
print("output:",output)

结果:

output: 12.0

优势:鲁棒性较好。如果需要考虑任一或全部的异常值,那么最小绝对值偏差是更好的选择
缺点:坐标原点(极小值)附近,有折点,不光滑,对于L1损失函数,其导数为常数,当预测值与真实值差异较小时,损失函数导数绝对值任然为1,如果学习率(learning_rate)不变,损失函数将在稳定值附近波动,难以继续收敛达到更高精度。

2.5 L2范数损失
L2范数损失函数被称为最小平方差(LSE)。把预测值f(x)与目标值y的差值的平方和(S)最小化:
在这里插入图片描述
代码:

import numpy as np
import torch
import torch.nn as nn
#数学公式
y=np.array([0,2,3,4,5],dtype=float)
f=np.array([1,0,1,0,0],dtype=float)
output=np.sum(np.square(y-f))
print("output:",output)

结果:

output: 50.0

优势:稳定性较好,L2损失函数处处可导,损失函数求解可以得到一个解析解。
缺点:L2损失函数稳健性较差,因为当误差较大时,损失函数采用平方,对异常值敏感。可能导致梯度爆炸为nan
**L1与L2优缺点对比:**如下图所示。
在这里插入图片描述

2.6 平滑版L1损失(SmoothL1Loss
从字面意思上看,smooth L1说的是光滑之后的L1,前面说了L1、L2损失函数的缺点,怎么减少这些缺点对模型的影响,从两个方面限制梯度。
1.预测值与目标值差别过大时,梯度值不至于过大;
2.预测值与目标值差别过小时,梯度值足够小。
smooth1损失函数为:
在这里插入图片描述
在smooth L1在x较小时,对x的梯度也会变小,而在x很大时,对x的梯度的绝对值达到上限1,也不会太大以至于梯度爆炸,解决了L1、L2损失缺陷。其函数图像。
在这里插入图片描述
如图所示:坐标原点附近导数平滑,在接近极小值时导数非常小,远离坐标导数与L1保持一致,不存在L2梯度爆炸。
总结:本章节主要介绍L1、L2损失函数,根据L1,L2函数缺点,又介绍了Smooth L1损失函数。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值