import torch
import torch.nn.functional as F
import torchvision
import torch.nn as nn
import torchvision.datasets
from torch.nn import Conv2d
from torch.utils.data import Dataset, DataLoader
from torch.utils.tensorboard import SummaryWriter
# 加载CIFAR-10数据集,并且64个图片为一个包
dataset = torchvision.datasets.CIFAR10('E:\\PyCharm_Project\\Pytorch_2.3.1\\PytorchVision\\dataset', train=False,
transform=torchvision.transforms.ToTensor(), download=True)
dataloader = DataLoader(dataset, batch_size=64)
"""
torch.nn里的Conv2d和torch.nn.functional.conv2d输入的形式有所不同;
后者的输入格式是conv2d(input tensor,kernel tensor,bias(偏值,暂时不设置),stride = 1,padding = 0)
而前者的输入格式为(in_channel , out_channel, kernel_size, stride, padding, dilation)
in_channels是输入的图片层数,彩色图片一般为RGB(红绿蓝)三层
kernel_size就是卷积核的大小,n*n
out_channels是输出图片的层数,一般在几十到几百之间,主要看模型和数据集的复杂程度,对于这个数据集个人感觉6个足够了
"""
# 定义一个简单的卷积神经网络模型。
class Zilliax(nn.Module):
def __init__(self):
super(Zilliax, self).__init__()
self.conv1 = Conv2d(in_channels=3, out_channels=6, kernel_size=3, stride=1, padding=0)
def forward(self, x):
x = self.conv1(x)
return x
Z = Zilliax()
print(Z)
# 写入tensorboard
writer = SummaryWriter("logs")
step = 0
for data in dataloader:
imgs, labels = data
out = Z(imgs)
print(imgs.shape)
print(out.shape)
writer.add_images("input", imgs, step)
# 输出的是6个channels的贵物,3个channels才是彩色图片,所以将6个channels用reshape转为3个,-1意思是不用管打包情况,后面30,30是尺寸
out = torch.reshape(out, (-1, 3, 30, 30))
writer.add_images("output", out, step)
print("-------------")
step += 1
打印的结果里,imgs.shape打印输入图像的形状,通常为[64, 3, 32, 32],即64张3通道的32x32图像。out.shape打印卷积后的输出形状,通常为[64, 6, 30, 30],即64张6通道的30x30特征图。
在卷积神经网络中,input 和 output 的图像看起来不同是正常的,因为卷积操作会改变输入图像的特征,具体表现为图像的颜色、亮度、对比度等方面的变化。
代码中,卷积操作将输入图像从3个通道变成了6个通道,每个卷积核捕捉到图像的不同特征。虽然后来将这6个通道重新排列成3个通道,但这个过程中不同的通道可能会对颜色和亮度产生影响。
卷积操作后,输出的特征图不再直接对应于标准的RGB通道,而是一些抽象的特征映射。通过 torch.reshape 将6个通道变回3个通道,这个过程类似于“压缩”了信息,可能导致颜色失真或偏移。