PyTorch中的Linear
层
Linear
层,也被称为全连接层(Fully Connected Layer),是神经网络中最基本的层之一。它的作用是将输入的数据(通常是一个向量)线性变换到一个新的特征空间。在数学上,这可以通过一个矩阵乘法加上一个偏置项来实现:y = xA^T + b
,其中x
是输入,A
是权重矩阵,b
是偏置项,y
是输出
import torch
import torchvision.datasets
from torch import nn
from torch.nn import Linear
from torch.utils.data import DataLoader
dataset = torchvision.datasets.CIFAR10("./dataset_2",train=False,transform=torchvision.transforms.ToTensor(),
download=True)
dataloader = DataLoader(dataset,batch_size=64,drop_last=True)
class Tudui(nn.Module):
def __init__(self):
super().__init__()
self.linear1 = Linear(196608,10) # (输入的特征数,输出的特征数)
def forward(self,input):
output = self.linear1(input)
return output
tudui = Tudui()
for data in dataloader:
imgs,targets = data
print(imgs.shape)
output = torch.flatten(imgs) # output = torch.reshape(imgs,(1,1,1,-1))
print(output.shape)
output = tudui(output)
print(output.shape)
为什么需要摊平(Flatten)
在你的代码中,imgs
是一个四维张量(Tensor),其形状通常为[batch_size, channels, height, width]
。对于CIFAR-10数据集,使用torchvision.transforms.ToTensor()
转换后,这个张量的形状会是[batch_size, 3, 32, 32]
(假设batch_size
是64)。
Linear
层期望的输入是一个二维张量(或一维张量,但会被自动转换为二维),其形状为[batch_size, features]
,其中features
是特征的总数。由于你的imgs
是一个四维张量,不能直接被Linear
层处理,因此你需要通过摊平(flatten)操作将其转换为一个二维张量。摊平操作会将图像的所有像素值(即所有特征)转换为一个长向量,这样每个图像就变成了一个包含所有像素值的向量,然后这个向量可以被Linear
层处理。
# 线性层的输入是一个二维张量[batch_size, features]
for data in dataloader:
imgs,targets = data
print(imgs.shape)
output = torch.flatten(imgs) # output = torch.reshape(imgs,(1,1,1,-1))
print(output.shape)
output = tudui(output)
print(output.shape)
# 输出结果:
torch.Size([64, 3, 32, 32])
torch.Size([196608])
torch.Size([10])