pytorch中交叉熵损失nn.CrossEntropyLoss()的真正计算过程

最新推荐文章于 2024-06-22 22:41:08 发布

月光下的小白兔✘

最新推荐文章于 2024-06-22 22:41:08 发布

阅读量6.1k

点赞数 23

分类专栏：卷积神经网络人工智能教程文章标签： pytorch 神经网络深度学习

本文链接：https://blog.csdn.net/qq_44523137/article/details/120557043

版权

教程同时被 3 个专栏收录

12 篇文章

订阅专栏

人工智能

9 篇文章

订阅专栏

卷积神经网络

3 篇文章

订阅专栏

本文详细解析了PyTorch中交叉熵损失函数nn.CrossEntropyLoss的计算过程，指出常见理解误区，并通过代码验证了nn.CrossEntropyLoss实际上是nn.LogSoftmax与nn.NLLLoss的结合。作者提供了正确的公式和自定义实现，以匹配官方库的结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pytorch中交叉熵损失nn.CrossEntropyLoss()的真正计算过程

对于多分类损失函数Cross Entropy Loss，就不过多的解释，网上的博客不计其数。在这里，讲讲对于CE Loss的一些真正的理解。

首先大部分博客给出的公式如下：
在这里插入图片描述
其中p为真实标签值，q为预测值。
在低维复现此公式，结果如下。在此强调一点，pytorch中CE Loss并不会将输入的target映射为one-hot编码格式，而是直接取下标进行计算。

import torch
import torch.nn as nn
import math
import numpy as np

#官方的实现
entroy=nn.CrossEntropyLoss()
input=torch.Tensor([[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],])
target = torch.tensor([0,1,2])
output = entroy(input, target)
print(output)
#输出 tensor(1.1142)

#自己实现
input=np.array(input)
target = np.array(target)
def cross_entorpy(input, target):
    output = 0
    length = len(target)
    for i in range(length):
        hou = 0
        for j in input[i]:
            hou += np.log(input[i][target[i]])
        output += -hou
    return np.around(output / length, 4)
print(cross_entorpy(input, target))
#输出 3.8162

我们按照官方给的CE Loss和根据公式得到的答案并不相同，说明公式是有问题的。

正确公式

在这里插入图片描述
实现代码如下

import torch
import torch.nn as nn
import math
import numpy as np

entroy=nn.CrossEntropyLoss()
input=torch.Tensor([[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],])
target = torch.tensor([0,1,2])
output = entroy(input, target)
print(output)
#输出 tensor(1.1142)
#%%
input=np.array(input)
target = np.array(target)
def cross_entorpy(input, target):
    output = 0
    length = len(target)
    for i in range(length):
        hou = 0
        for j in input[i]:
            hou += np.exp(j)
        output += -input[i][target[i]] + np.log(hou)
    return np.around(output / length, 4)
print(cross_entorpy(input, target))
#输出 1.1142

对比自己实现的公式和官方给出的结果，可以验证公式的正确性。

观察公式可以发现其实nn.CrossEntropyLoss()是nn.logSoftmax()和nn.NLLLoss()的整合版本。

nn.logSoftmax()，公式如下
在这里插入图片描述
nn.NLLLoss()，公式如下

在这里插入图片描述
将nn.logSoftmax()作为变量带入nn.NLLLoss()可得

在这里插入图片描述
因为

可看做一个常量，故上式可化简为：

对比nn.Cross Entropy Loss公式，结果显而易见。

验证代码如下。

import torch
import torch.nn as nn
import math
import numpy as np

entroy=nn.CrossEntropyLoss()
input=torch.Tensor([[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],[0.1234, 0.5555,0.3211],])
target = torch.tensor([0,1,2])
output = entroy(input, target)
print(output)
# 输出为tensor(1.1142)
m = nn.LogSoftmax()
loss = nn.NLLLoss()
input=m(input)
output = loss(input, target)
print(output)
# 输出为tensor(1.1142)