Pytorch中18种损失函数的数学原理

微小冷

已于 2023-10-28 10:29:48 修改

阅读量2.2k

点赞数 1

分类专栏： Python 文章标签：损失函数机器学习 pytorch 深度学习 python

于 2022-04-10 10:36:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37816922/article/details/124074069

版权

Python 专栏收录该内容

61 篇文章 83 订阅

订阅专栏

$x$ 表示输出序列， $y$ 表示目标序列， $\operatorname{rms}$ 表示均方根， $L=\{l_1\cdots l_n\}$ 。

将mini-batch译为小批。

1 L1Loss

$L_1=|x-y|$

2 MSELoss

$L=\operatorname{rms}(L_1)$

3 CrossEntropyLoss

$=\sum_j \frac{y_j}{\sum_i y_i}(-\log\frac{e^{x_j}}{\sum_i e^{x_i}})$

注解：

熵是基于信息量这个概念，信息量被定义为概率分布的对数。例如现有事件空间X，其中 $x\in X$ 发生的概率为 $P (X = x) = p (x)$ ，则对于 $X = x$ 的信息量为 $I(x)=-\log p(x)$ 。

可见概率越大的事件发生，则信息量越小，当 $p (x) = 1$ 时， $x$ 为必然事件，此时信息量为0。例如 $1 + 1 = 2$ 是必然的，那么当我们看到 $1 + 1 = 2$ 的时候，内心毫无波澜；但万一发现 $1 + 1 = 3$ 成立，那信息量太大将导致心态爆炸。

熵则表示系统中信息量总和，信息量越大代表越混乱。简单起见，考虑两点分布，对于事件 $x$ ，其发生的概率为 $p$ ，则不发生的概率为 $1 - p$ ，则其熵为这两种可能信息的期望：

$\begin{aligned} H(x) &= P(x)I(x)+P(\bar x)I(\bar x)\\ &= -p\log p-(1-p)\log(1-p) \end{aligned}$

若取对数的底为 $a$ ，则

$\begin{aligned} H'(p)&=-\ln p-p\frac{1}{p\ln a}+\ln(1-p)-(1-p)\frac{-1}{(1-p)\ln a}\\ &=-\ln p-\frac{1}{\ln a}+\ln(1-p)-(-\frac{1}{\ln a})\\ &=\ln\frac{1-p}{p} \end{aligned}$

则当 $p = 0.5$ 时， $H^{'} (p) = 0, H^{''} (0.5) = - 4 < 0$ ，代表此时有极大值。也就时说，发生与不发生的概率越是接近，则代表熵越大，即不确定性越大。

假设 $x_i\in X$ 为一组随机变量，其发生的概率为 $p_i$ ，则其熵为

$H(X)=\sum -p_i\log p_i,\quad \sum p_i=1$

如果现有一组样本，概率分布为 $q_i$ ，则其对应的信息量为 $log q_i$ 。而我们希望这组样本的概率分布为 $p_i$ 。

对于事件 $x_i$ 而言，样本与目标信息量之差可以衡量样本与目标概率的相似程度；那么对于全体事件 $X$ 来说，这个信息差的期望则可以起到相似性度量的作用，即

$D_{KL}=\sum p_i(\log p_i- \log q_i)$

此即K-L散度，又叫相对熵，其绝对值越小，则代表样本和目标分布越相似。

目标概率分布 $p_i$ 往往是已知的，所以

$D_{KL}=\sum p_i\log p_i- \sum p_i\log q_i$

其取值将取决于第二项，此即交叉熵的来源

$\sum p_i\log q_i$

交叉熵恒大于0，故交叉熵越小，则样本分布越接近于目标分布。

在Pytorch中， $\frac{y_i}{\sum_i y_i}$ 代表第 $i$ 种类别的目标概率； $\frac{e^{x_i}}{\sum_i e^{x_i}}$ 则代表第 $i$ 种类别的输出概率。整理一下正是交叉熵公式。

4 KLDivLoss

即KL散度，详解见3.

5 BCELoss

即二进制交叉熵(Binary cross entropy)。

交叉熵即

$\sum p_i\log q_i$

其中， $p_i, q_i$ 分别表示目标和样本的概率分布。

对于二项分布而言，其交叉熵中的 $q_i$ 可以分为两种：即事件发生与事件不发生，分别表示为 $y, 1 - y$ ，相应地，目标样本的概率可以写为 $\hat y, 1-\hat y$ ：

$-y\ln\hat y-(1-y)\ln(1-\hat y)$

对于批量样本 ${x_i, y_i\}$ ，其样本概率也将不再唯一，可写为 $\hat y_i$ ，从而交叉熵的均值可以表示为

$L_{BSE}=\sum_i-y_i\ln x_i-(1-y_i)\ln(1-x_i)$

例如下表的4组样本

$i$	$y_i$	$x_i$
0	1	0.8
1	0	0.1
2	0	0.1
3	1	0.9

则计算可得 $L_{BSE}=0.53$ 。

6 BCEWithLogits

即在同一个类中封装了BCELoss外加一个Sigmoid层。

$L=\sum_i-y_i\ln\sigma(x_i)-(1-y_i)\ln(1-\sigma(x_i))$

7 MarginRanking

可译为边距排序，其表达式为

$L(x_1,x_2,y)=\max(0,-y\cdot(x_1-x_2)+\operatorname{m})$

$y$ 可取值1或者-1，从而上式变为

$L_1(x_1,x_2)=\max(0,x_2-x_1+\operatorname{m})\\ L_{-1}(x_1,x_2)=\max(0,x_1-x_2+\operatorname{m})$

由于这两种情况呈现出完全相反的两种次序关系，所以只分析 $L_1$ ，则此时损失函数不为0的条件为 $x_2>x_1-\operatorname{m}$ 。

8 HingeEmbedding

Hinge损失也针对二分类的情况，对于标签 $y_n$ ，可以取值为1或者-1，则损失为

$l_n=\left\{\begin{aligned} &x_n,&y_n&=1\\ &\max{0,\Delta-x)n},&y_n&=-1 \end{aligned} \right.$

而总损失可以是 $l_n$ 的均值或和。

9 MultiLabelMargin

即多标签分类损失，是Hinge的多标签扩展，可以表示为

$L(x,y)=\sum_{i,j}\frac{\max(0,1-(x[y_j]-x[i]))}{x.size[0]}$

10 HuberLoss

Huber损失结合了L1和MSE损失的优点，

$l_n=\left\{\begin{aligned} &0.5(x_n-y_n)^2,\quad \text{if} \vert x_n-y_n \vert < \delta\\ &\delta(\vert x_n-y_n \vert-0.5\delta) \end{aligned}\right.$

当 $\delta\to\infty$ 时，即退化为MSELoss。

11 SmoothL1

即平滑版的L1损失，和MSE相比对异常值不敏感。

$l_n=\left\{\begin{aligned} &0.5(x_n-y_n)^2/\beta,\quad \text{if}\quad\vert x_n-y_n \vert < \beta\\ &\vert x_n-y_n \vert-0.5\beta \end{aligned}\right.$

12 SoftMargin

为2分类的logistic损失，通过输入张量 $x$ 和输出张量 $y$ 来构建损失函数

$L(x,y)=\frac{1}{N}\sum_i\log[1+\exp(-x_iy_i)]$

13 MultiLabelSoftMargin

输入 $x$ 的尺寸为 $N\times C$ ，令 $y_i=\pm1$ ，则其损失函数如下

$L(x,y)=-\frac{1}{C}\sum_i y_i\log\frac{1}{1+\exp(-x_i)}+(1-y_i)\log\frac{\exp(-x_i)}{1+\exp(-x_i)}$

14 CosinieEmbedding

即余弦损失。

$L(x,y)=\left\{\begin{aligned} &1-\cos(x_1,x_2),&\text{if}&\quad y=1\\ &\max(0,\cos(x_1,x_2)-M)&\text{if}&\quad y=-1 \end{aligned}\right.$

其中， $M\in(-1,1)$ ，推荐区间为 $(0, 0.5)$ 。

$\cos(x,y)$ 为余弦距离，表达式为

$\cos(x,y)=\frac{\sum_i{x_iy_i}}{\sqrt{\sum_ix_i^2}\sqrt{\sum_iy_i^2}}$

15 MultiMargin

$L(x,y)=\frac{\sum_{i\not=y}\max(0,M-x_y+x_i)^p}{N}$

其中，输入 $x$ 是二维的小批张量(mini-batch tensor)， $y\in(0,N)$ 。

16 TripletMargin

$L(\alpha,\beta,\gamma)=\max\big(\Vert \alpha_i-\beta_i\Vert_p-\Vert\alpha_i-\gamma_i\Vert_p+m,0\big)$

即三元组损失，其中 $\alpha,\beta,\gamma$ 为输入的三个同维度张量。

17 CTC

$L(s)=-\ln\Pi_{(x,z)\in S}P(z|x)=-\sum_{(x,z)\in S}\ln P(z|x)$

设 $x$ 为输入，记 $y_k^t$ 为 $t$ 输出 $k$ 的概率， $\pi_t$ 表示路径 $\pi$ 在 $t$ 时刻的值。若 $y$ 在不同时刻是互相独立的，则输入 $x$ 输出 $\pi$ 路径的概率为

$p(\pi|x)=\prod^T_{t=1}y^t_{\pi_t},\forall\pi\in L'^T$

其中， $L$ 是标签集合， $L'=L\cup\{blank\}$ 。

$z$ 表示最终的标签，则

$p(z|x)=\sum_{\pi\in B^{-1}(z)}p(\pi|x),\quad B(\pi)=z$

则根据损失函数的定义，可计算其递推关系。

18 NLL

负对数似然损失的表达式可以写为

$L=\sum-\log x[y]$

但在pytorch中并未取对数，所以需要在适用NLLLoss之前，进行softmax和对数的运算。

softmax是一种概率归一化方法，定义为

$S(x_i)=\frac{\exp x_i}{\sum_j\exp x_j}$

而pytorch中的LogSoftmax则为

$LS(x_i)=\log\frac{\exp x_i}{\sum_j\exp x_j}$

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pytorch中18种损失函数的数学原理

xxx表示输出序列，yyy表示目标序列，rms⁡\operatorname{rms}rms表示均方根，L={l1⋯ln}L=\{l_1\cdots l_n\}L={l1⋯ln}。将mini-batch译为小批。1 L1LossL1=∣x−y∣L_1=|x-y|L1=∣x−y∣2 MSELossL=rms⁡(L1)L=\operatorname{rms}(L_1)L=rms(L1)3 CrossEntropyLossL=∑jyj∑iyi(−log⁡exj∑iexi)L =\
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微小冷 请我喝杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。