损失函数-pytorch

沙小菜

已于 2022-08-12 10:42:10 修改

阅读量1.6k

点赞数 2

文章标签： pytorch 深度学习 python

于 2022-06-19 20:13:32 首次发布

本文链接：https://blog.csdn.net/baidu_38262850/article/details/125361282

版权

损失函数的作用： 主要用于深度学习中predict与True label “距离”度量或者“相似度度量”，并通过反向传播求梯度，进而通过梯度下降算法更新网络参数，周而复始，通过损失值和评估值反映模型的好坏。

损失函数的种类：主要分为分类损失函数和回归损失函数。

分类损失函数	`KLDiv Loss` `、NLL Loss、CrossEntropy Loss、BCE Loss、BCE With Logits Loss、Margin Ranking Loss`、`Hinge Embedding Loss`、`Huber Loss`
回归损失函数	`L1 Loss(MAE)、L2 Loss(MSE)、Smooth L1 Loss`
回归损失函数	`IOU Loss、GIOU Loss、DIOU、CIOU Loss`

补充知识：

分类损失函数：

`(2.1) NLL Loss（Negative Log Likelihood Loss, 负对数似然函数）`

作用：对预测正确但是预测概率不高的情况进行惩罚（这种情况的损失值更大）。

公式：

常用于多分类（设为C类）问题，且可以对每个分类提供相应的权重，这对于非平衡数据集的处理非常有用

计算过程：

Batch_size=N，x是全连接层的输出，是个N*c的向量;
先对输入x计算softmax，此时，softmax(x)的取值范围是0-1;
再求对数-log，此时-log(softmax(x))的取值范围是(0， +∞ ); softmax(x)越小，-log(softmax(x))则越大；
通过labels将(N*C）中的N个样本对应的正确类别的预测得分取出来，组成（N，1）的向量,最后求和取均值。 yi表示第i个样本的标签。

代码：

torch.nn.NLLLoss(weight=None,size_average=None,ignore_index=-100,reduce=None,
reduction='mean') #weight：用于数据集类别不均衡问题。


import torch
from torch import nn
m = nn.LogSoftmax(dim=1)
loss = nn.NLLLoss()
input = torch.randn(3, 5, requires_grad=True)
target = torch.tensor([1, 0, 4])
output = loss(m(input), target)
output.backward

Cross Entropy Loss=NLL Loss+softmax层，

Cross Entropy Loss含有F.softmax(input, dim=1)

`（2.1）Cross Entropy Loss-交叉熵损失`

公式：

softmax(y)指的就是预测标签的概率。 $\hat{y}$ 是真实类别标签的one-hot的形式.

常用于多分类（设为C类）问题，且可以对每个分类提供相应的权重，这对于非平衡数据集的处理非常有用。

计算过程：

y是神经网络全连接层的输出shape=(N, C)；
对y经过sigmoid或softmax处理输出概率值，shape=(N, C)；
将预测的概率值（shape=(N,C)）与 $\hat{y}$ 真实类别标签的one-hot的形式(shape=(N,C))进行交叉熵计算。

代码：

nn.CrossEntropyLoss (input, target, weight)

#参数：input.shape=(N, C)，target.shape为(N)或者概率形式的target(N,C)。

loss = F.cross_entropy(input, target)
print(loss)  # tensor(0.7099)
weight = torch.tensor([1.0, 9.0])
loss = F.cross_entropy(input, target, weight)
print(loss)  # tensor(0.7531)

weight的工作方法：

(1)当我们在计算损失前，当遇到真实标签是0的样本时，我们就乘上我们为它附上的权重，也就是1；当我们遇到真实标签是1的样本时，我们就乘上给该类样本附的权重，也就是9。

(2)在对所用样本计算完损失后，再求平均，也就是loss/(1*8+9*1)：这个含义是input数据中标签为0样本的个数是8，权重是1，即1个类别为0的样本我们仍然将其视为1个；标签为1的样本的个数是1，权重是9，即1个类别为1的样本我们将其视为9个；这样总的样本数就是1*8+9*1=17个，在对loss求平均，也就是最终的损失0.7531.

(2.3) BCE Loss-二分类交叉熵损失，Binary Cross Entropy Loss

可用于二分类、多标签分类，即判断每一个标签是否是前景、背景。

公式：

y为预测当前标签的概率值。使用BCE前，需要通过sigmoid将score转换为预测的概率。

代码：nn.BCELoss(input, target), input和target的shape一致。

# 1. 在放入BCE Loss前需要对输入使用sigmoid转换为概率，
m = nn.Sigmoid()
loss = nn.BCELoss()
input = torch.randn(3, requires_grad=True)
target = torch.empty(3).random_(2)
output = loss(m(input), target)
output.backward()

（2.4）BCE With Logits Loss

可用于多标签分类，即判断每一个标签是否是前景、背景。

BCEWithLogitsLoss损失函数把 Sigmoid 层集成到了 BCELoss 类中。

代码：nn.BC EWithLogitsLoss(input, target)

参数：input和target的shape一致。

loss = nn.BCEWithLogitsLoss()
input = torch.randn(3, requires_grad=True)
target = torch.empty(3).random_(2)
output = loss(input, target)
output.backward()(2.5)Focal Loss

检测中one-stage detector的准确率不如two-stage detector的原因：

正负样本不平衡。样本中会存在大量的easy examples，且都是负样本(属于背景的样本)。easy negative examples会对loss起主要贡献作用，会主导梯度的更新方向。这样，网络学不到有用的信息，无法对object进行准确分类。而two stage首先利用RPN产生region proposal，这一步会删了很多easy examples。

公式:

pt是样本识别成正确类别的概率，at是类别的损失权重。（1-pt）属于[0,1]。

. (1-pt)^r用来解决难易样本问题

添加(1-pt)^r的目的：是通过减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。(1-pt)^r对易分类样本的损失缩减程度大，对难分类样本的损失缩减程度小。

容易样本的pt一般会比较高，则（1-pt）会小，(1-pt)^r会使-llog(pt)缩小的程度大，

如：r=2，pt=0.9,（1-pt)=0.1, (1-pt)^r=0.01，损失是原来的0.01倍

难分样本的pt一般会比较小，则（1-pt）会高，(1-pt)^r会使-llog(pt)缩小的程度小，

如：r=2，pt=0.1,（1-pt)=0.9, (1-pt)^r=0.81，损失是原来的0.81倍

at用来解决正负样本不均衡问题

既然one-stage detector在训练的时候正负样本的数量差距很大，那么一种常见的做法就是给正负样本加上权重，负样本出现的频次多，那么就降低负样本的权重，正样本数量少，就相对提高正样本的权重。因此可以通过设定a的值来控制正负样本对总的loss的共享权重。a取比较小的值来降低负样本（多的那类样本）的权重。

(2.6)arcface loss

(2.7)magface loss

3.回归损失函数

(3.1) L1Loss-L1范数损失

它是把目标值yi与模型输出（估计值）f(xi) 做绝对值得到的误差

代码：torch.nn.L1Loss(reduction='mean')

参数：reduction有三个值可选：none: 不使用约简；mean:返回loss和的平均值；sum:返回loss的和。默认：mean。

(3.2) MSELoss-均方误差损失

它是把目标值yi与模型输出(估计值)f(xi)做差然后平方得到的误差公式：

torch.nn.MSELoss(reduction='mean')

参数：reduction有三个值可选：none: 不使用约简；mean:返回loss和的平均值；sum:返回loss的和。默认：mean。

(3.3) SmoothL1Loss

简单来说就是平滑版的L1 Loss。

公式：

torch.nn.SmoothL1Loss(reduction='mean')

SooothL1Loss其实是L2Loss和L1Loss的结合，它同时拥有L2 Loss和L1 Loss的部分优点：
(1)当预测值和ground truth差别较小的时候（绝对值差小于1），使用的是L2 Loss，梯度不至于太大。（损失函数相较L1 Loss比较圆滑）
(2)当差别大的时候，使用的是L1 Loss，梯度值足够小（较稳定，不容易梯度爆炸）。