Pytorch：nn.Linear中是否自动应用softmax函数

浩瀚之水_csdn

于 2024-09-15 19:16:02 发布

阅读量338

点赞数 10

分类专栏：深度学习目标检测 # Pytorch框架文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/a8039974/article/details/142287441

版权

深度学习目标检测同时被 2 个专栏收录

95 篇文章 8 订阅

订阅专栏

Pytorch框架

81 篇文章 16 订阅

订阅专栏

在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。

一、什么是nn.Linear

nn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。

我们来看一个简单的示例，展示如何使用nn.Linear来进行一个线性变换。假设我们有一个输入张量x，维度为(1, 10)，表示一批包含10个特征的样本。我们希望将其通过线性变换得到输出张量y，维度为(1, 5)，表示对应的5个类别的概率分布。

import torch
import torch.nn as nn

# 定义输入张量x，维度为(1, 10)
x = torch.randn(1, 10)

# 定义线性转换模块
linear = nn.Linear(10, 5)

# 进行线性变换得到输出张量y
y = linear(x)

# 打印输出张量y
print(y)

运行上述代码，我们可以看到输出张量y的维度为(1, 5)，表示对应的5个类别的概率分布。在这个示例中，我们没有手动应用softmax函数，但是nn.Linear模块已经自动应用了softmax函数。下面我们将进一步探讨nn.Linear是否自动应用softmax函数的原因。

二、nn.Linear中的softmax函数

在PyTorch中，nn.Linear模块的实现原理是使用线性变换后的输出张量作为softmax函数的输入，从而得到对应的类别的概率分布。softmax函数的作用是将一个含有任意实数的向量转换为概率分布，使得各个元素的值在0到1之间，并且所有元素之和为1。

具体来说，对于线性变换后的输出张量y，经过softmax函数处理后，得到概率分布张量p，即p = softmax(y)，满足p[i] = exp(y[i]) / sum(exp(y[j]))，其中exp为指数函数。概率分布张量p可以表示对应不同类别的概率值，可以用于分类任务。

因此，我们可以通过查看nn.Linear的源码来验证它是否自动应用了softmax函数。

import torch
import torch.nn as nn

linear = nn.Linear(10, 5)
print(linear)

运行上述代码，可以看到nn.Linear的输出如下：

Linear(in_features=10, out_features=5, bias=True)

从输出可以看出，当我们创建nn.Linear模块时，它的bias参数默认为True，这意味着nn.Linear在进行线性变换后会添加偏置，并且会自动应用softmax函数。

在实际使用中，我们通常通过将nn.Linear的输出作为损失函数的输入，从而完成神经网络的训练。这样做的好处是，我们无需手动编写softmax函数，PyTorch已经帮我们完成了这一步骤。

三、nn.Linear会自动softmax吗

nn.Linear 是 PyTorch 中的一个线性层（也称为全连接层或密集层），它不会对输出应用任何激活函数，包括 softmax。nn.Linear 仅仅计算输入数据的线性变换，即 y = xA^T + b，其中 x 是输入，A 是权重矩阵，b 是偏置向量，y 是输出。

如果你想要在线性层的输出上应用 softmax 激活函数，你需要显式地添加一个 nn.Softmax 层（对于多类分类问题，更常见的是使用 nn.LogSoftmax 后跟 nn.NLLLoss 来实现负对数似然损失，因为 nn.LogSoftmax 在数值上更稳定，并且与 nn.NLLLoss 一起使用时可以直接计算交叉熵损失）。但是，对于多类分类问题，PyTorch 提供了一个更方便的类 nn.CrossEntropyLoss，它内部结合了 nn.LogSoftmax 和 nn.NLLLoss 的功能，因此你不需要显式地在网络中添加 nn.Softmax 层。

如果你的任务是分类，并且你想要网络输出每个类别的概率，你通常会这样做：

使用 nn.Linear 层输出原始分数（logits）。
（可选）使用 nn.LogSoftmax 将 logits 转换为对数概率（这通常是为了与 nn.NLLLoss 一起使用）。
或者，直接使用 nn.CrossEntropyLoss，它接受原始分数（logits）作为输入，并自动应用 softmax（实际上是 log_softmax，因为它直接计算对数概率）和交叉熵损失。

nn.Linear 不会自动应用 softmax 激活函数。nn.Linear 是一个线性层，它仅仅计算输入数据的线性变换，即 y = xA^T + b，其中 x 是输入，A 是权重矩阵，b 是偏置向量，y 是输出（也称为 logits 或原始分数）。

如果你想要在线性层的输出上应用 softmax 激活函数，你需要显式地在你的网络中添加一个 nn.Softmax 层。但是，在分类任务中，更常见的是使用 nn.LogSoftmax 后跟 nn.NLLLoss（负对数似然损失），因为 nn.LogSoftmax 在数值上更稳定，并且与 nn.NLLLoss 一起使用时可以直接计算交叉熵损失。然而，PyTorch 提供了一个更方便的类 nn.CrossEntropyLoss，它内部结合了 nn.LogSoftmax 和 nn.NLLLoss 的功能，因此你不需要显式地在网络中添加 nn.Softmax 层。

nn.CrossEntropyLoss 接收原始分数（logits）作为输入，并自动应用 softmax（实际上是 log_softmax，因为它直接计算对数概率）来计算交叉熵损失。这使得 nn.CrossEntropyLoss 成为多类分类任务中非常受欢迎的选择。

简而言之，nn.Linear 本身不会自动应用 softmax，但你可以通过结合使用 nn.Linear 和 nn.CrossEntropyLoss（或 nn.LogSoftmax 和 nn.NLLLoss）来在分类任务中实现类似的效果。

import torch  
import torch.nn as nn  
  
# 假设有一个简单的网络  
class SimpleNet(nn.Module):  
    def __init__(self, num_inputs, num_classes):  
        super(SimpleNet, self).__init__()  
        self.fc = nn.Linear(num_inputs, num_classes)  
  
    def forward(self, x):  
        x = self.fc(x)  
        return x  # 返回logits，即原始分数  
  
# 创建网络  
net = SimpleNet(num_inputs=10, num_classes=3)  
  
# 假设有一些输入数据和目标  
inputs = torch.randn(1, 10)  # 假设的输入数据，形状为[batch_size, num_inputs]  
targets = torch.tensor([1])  # 假设的目标标签，索引从0开始  
  
# 损失函数  
criterion = nn.CrossEntropyLoss()  
  
# 前向传播  
outputs = net(inputs)  
  
# 计算损失  
loss = criterion(outputs, targets)  
  
print(loss.item())

四、总结

在本文中，我们介绍了Pytorch中的nn.Linear模块以及它是否自动应用softmax函数的问题。我们通过一个简单的示例展示了如何使用nn.Linear进行线性变换，并观察到nn.Linear模块已经自动应用了softmax函数。nn.Linear的自动应用softmax函数的设计，使得我们在神经网络的训练中更加方便，无需手动添加softmax函数。

总体而言，PyTorch为我们提供了许多方便的功能和模块，使得神经网络的搭建和训练变得更加简单高效。通过使用nn.Linear模块，我们可以方便地进行线性变换和softmax函数的自动应用，从而得到分类任务中所需的概率分布。

需要注意的是，如果我们不希望nn.Linear自动应用softmax函数，可以将bias参数设置为False，即linear = nn.Linear(10, 5, bias=False)，这样就不会在线性变换后自动应用softmax函数。但是在大多数分类任务中，我们会希望得到类别的概率分布，因此使用默认设置即可。

总之，PyTorch的nn.Linear模块在进行线性变换后会自动应用softmax函数，从而得到对应类别的概率分布。这一设计使得神经网络的搭建和训练更加便捷，无需手动编写softmax函数。当我们使用nn.Linear时，可以直接将输出作为损失函数的输入，从而完成分类任务的训练。通过了解和合理使用PyTorch的各种模块和功能，我们可以更加高效地构建和训练深度学习模型。