多输入通道和多输出通道

最新推荐文章于 2024-05-24 19:23:20 发布

Helloworld188888

最新推荐文章于 2024-05-24 19:23:20 发布

阅读量1.4k

点赞数

分类专栏：深度学习 Python pytorch 文章标签：神经网络深度学习 cnn

本文链接：https://blog.csdn.net/qq_24951479/article/details/130362082

版权

Python 同时被 3 个专栏收录

39 篇文章 3 订阅

订阅专栏

深度学习

37 篇文章 1 订阅

订阅专栏

pytorch

27 篇文章 1 订阅

订阅专栏

【目录】

多输入通道和多输出通道

【目录】
1. 什么是多输入通道和多输出通道
2. 多输入通道和多输出通道的实现
- 2.1 多输入通道和多输出通道的卷积操作
- 2.2 多输入通道和多输出通道的全连接操作
3. 多输入通道和多输出通道的实例
4 结构图和计算
5. 总结

1. 什么是多输入通道和多输出通道

在卷积神经网络（Convolutional Neural Network，CNN）中，多输入通道和多输出通道是两个非常重要的概念。在介绍多输入通道和多输出通道之前，我们先来回顾一下卷积神经网络中的卷积操作。

卷积神经网络中的卷积操作是指，将输入张量与卷积核进行卷积操作，得到输出张量的过程。其中，输入张量和卷积核都是多维数组，通常都是三维数组。在卷积操作中，输入张量的每个二维数组都称为一个输入通道，卷积核的每个二维数组都称为一个输出通道。

多输入通道和多输出通道则是指，输入张量和输出张量分别包含多个输入通道和输出通道的情况。具体来说，多输入通道指的是输入张量包含多个二维数组，即包含多个输入通道；多输出通道指的是输出张量包含多个二维数组，即包含多个输出通道。

2. 多输入通道和多输出通道的实现

在卷积神经网络中，多输入通道和多输出通道的实现方式主要有两种：多输入通道和多输出通道的卷积操作、多输入通道和多输出通道的全连接操作。下面我们将分别介绍这两种实现方式。

2.1 多输入通道和多输出通道的卷积操作

在多输入通道和多输出通道的卷积操作中，输入张量和卷积核的维度分别为 $n_i \times c_i \times h_i \times w_i$ 和 $n_o \times c_i \times k_h \times k_w \times c_o$ ，其中 $n_i$ 和 $n_o$ 分别是输入张量和输出张量的样本数， $c_i$ 是输入张量的通道数， $h_i$ 和 $w_i$ 分别是输入张量的高度和宽度， $k_h$ 和 $k_w$ 分别是卷积核的高度和宽度， $c_o$ 是输出张量的通道数。具体来说，假设输入张量为 $X$ ，卷积核为 $W$ ，输出张量为 $Y$ ，则多输入通道和多输出通道的卷积操作可以表示为：

$y_{n,o,h,w} = \sum_{i=1}^{c_i} \sum_{j=1}^{k_h} \sum_{k=1}^{k_w} x_{n,i,h+j-1,w+k-1} w_{i,j,k,o}$

其中， $y_{n,o,h,w}$ 表示输出张量 $Y$ 的第 $n$ 个样本、第 $o$ 个输出通道、第 $h$ 行、第 $w$ 列的值； $x_{n,i,h+j-1,w+k-1}$ 表示输入张量 $X$ 的第 $n$ 个样本、第 $i$ 个输入通道、第 $h + j - 1$ 行、第 $w + k - 1$ 列的值； $w_{i,j,k,o}$ 表示卷积核 $W$ 的第 $i$ 个输入通道、第 $j$ 行、第 $k$ 列、第 $o$ 个输出通道的值。

2.2 多输入通道和多输出通道的全连接操作

在多输入通道和多输出通道的全连接操作中，输入张量和输出张量的维度分别为 $n_i \times c_i \times h_i \times w_i$ 和 $n_o \times c_o$ ，其中 $n_i$ 和 $n_o$ 分别是输入张量和输出张量的样本数， $c_i$ 是输入张量的通道数， $h_i$ 和 $w_i$ 分别是输入张量的高度和宽度， $c_o$ 是输出张量的通道数。具体来说，假设输入张量为 $X$ ，全连接层的权重为 $W$ ，输出张量为 $Y$ ，则多输入通道和多输出通道的全连接操作可以表示为：

$y_{n,o} = \sum_{i=1}^{c_i} \sum_{j=1}^{h_i} \sum_{k=1}^{w_i} x_{n,i,j,k} w_{i,j,k,o}$

其中， $y_{n,o}$ 表示输出张量 $Y$ 的第 $n$ 个样本、第 $o$ 个输出通道的值； $x_{n,i,j,k}$ 表示输入张量 $X$ 的第 $n$ 个样本、第 $i$ 个输入通道、第 $j$ 行、第 $k$ 列的值； $w_{i,j,k,o}$ 表示全连接层的权重，表示输入通道为 $i$ 、高度为 $j$ 、宽度为 $k$ 、输出通道为 $o$ 的权重值。

3. 多输入通道和多输出通道的实例

下面我们使用 PyTorch 来实现一个多输入通道和多输出通道的卷积神经网络，并对其进行训练和测试。具体来说，我们将使用 CIFAR-10 数据集，该数据集包含 10 类物体的彩色图像。每张图像的大小为 $32 \times 32$ ，共有 3 个通道（即 RGB 三个通道）。我们将使用一个包含多个卷积层和全连接层的卷积神经网络来对 CIFAR-10 数据集进行分类。

3.1 导入必要的库和数据集

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# 定义数据增强的操作
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),  # 随机裁剪
    transforms.RandomHorizontalFlip(),  # 随机水平翻转
    transforms.ToTensor(),  # 转为张量
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 归一化
])
transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

# 加载训练集和测试集
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
testloader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)

3.2 定义卷积神经网络

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 第一层卷积层
        self.conv1 = nn.Conv2d(3, 6, 5)
        # 第二层卷积层
        self.conv2 = nn.Conv2d(6, 16, 5)
        # 第三层全连接层
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        # 第四层全连接层
        self.fc2 = nn.Linear(120, 84)
        # 第五层全连接层
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # 第一层卷积层
        x = self.conv1(x)
        x = nn.functional.relu(x)
        x = nn.functional.max_pool2d(x, 2)
        # 第二层卷积层
        x = self.conv2(x)
        x = nn.functional.relu(x)
        x = nn.functional.max_pool2d(x, 2)
        # 第三层全连接层
        x = x.view(-1, 16 * 5 * 5)
        x = self.fc1(x)
        x = nn.functional.relu(x)
        # 第四层全连接层
        x = self.fc2(x)
        x = nn.functional.relu(x)
        # 第五层全连接层
        x = self.fc3(x)
        return x

net = Net()

3.3 训练卷积神经网络

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

for epoch in range(10):
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data

        optimizer.zero_grad()

        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 100 == 99:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100))
            running_loss = 0.0

3.4 测试卷积神经网络

correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (100 * correct / total))

4 结构图和计算

其中，A表示单通道输入，A1和A2表示多通道输入；B表示单通道卷积层，B1表示多通道卷积层；C表示单通道输出，C1表示多通道输出。

对于多输入通道和多输出通道的卷积神经网络，其计算过程与单通道的卷积神经网络类似，只是在输入和输出的张量维度上会有所不同。

假设输入张量为 $X\in R^{C_{in}\times H_{in}\times W_{in}}$ ，其中 $C_{in}$ 表示输入通道数， $H_{in}$ 和 $W_{in}$ 分别表示输入张量的高和宽；卷积核张量为 $W\in R^{C_{out}\times C_{in}\times K_H\times K_W}$ ，其中 $C_{out}$ 表示输出通道数， $K_H$ 和 $K_W$ 分别表示卷积核的高和宽；输出张量为 $Y\in R^{C_{out}\times H_{out}\times W_{out}}$ ，其中 $H_{out}$ 和 $W_{out}$ 分别表示输出张量的高和宽。

对于单通道输入和单通道输出的情况，卷积运算的计算过程如下：

$Y_{k,i,j}=\sum_{c=1}^{C_{in}}\sum_{p=1}^{K_H}\sum_{q=1}^{K_W}W_{k,c,p,q}X_{c,(i-1)\times s+p,(j-1)\times s+q}+b_k$

其中， $Y_{k,i,j}$ 表示输出张量 $Y$ 中第 $k$ 个通道、第 $i$ 行、第 $j$ 列的元素； $W_{k,c,p,q}$ 表示卷积核张量 $W$ 中第 $k$ 个通道、第 $c$ 个通道、第 $p$ 行、第 $q$ 列的元素； $X_{c,i,j}$ 表示输入张量 $X$ 中第 $c$ 个通道、第 $i$ 行、第 $j$ 列的元素； $s$ 表示步幅； $b_k$ 表示偏置项。

对于多输入通道和多输出通道的情况，卷积运算的计算过程如下：

$Y_{k,i,j}=\sum_{c=1}^{C_{in}}\sum_{p=1}^{K_H}\sum_{q=1}^{K_W}\sum_{m=1}^{M}W_{k,c,p,q,m}X_{c,(i-1)\times s+p,(j-1)\times s+q,m}+b_k$

其中， $M$ 表示输入张量 $X$ 的通道数； $Y_{k,i,j}$ 、 $W_{k,c,p,q,m}$ 、 $X_{c,i,j,m}$ 、 $s$ 和 $b_k$ 的含义同单通道的情况。

5. 总结

本文介绍了卷积神经网络中的多输入通道和多输出通道的概念和实现方式，并使用 PyTorch 实现了一个包含多个卷积层和全连接层的卷积神经网络，对 CIFAR-10 数据集进行了分类

Helloworld188888

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
多输入通道和多输出通道

在卷积神经网络（Convolutional Neural Network，CNN）中，多输入通道和多输出通道是两个非常重要的概念。在介绍多输入通道和多输出通道之前，我们先来回顾一下卷积神经网络中的卷积操作。卷积神经网络中的卷积操作是指，将输入张量与卷积核进行卷积操作，得到输出张量的过程。其中，输入张量和卷积核都是多维数组，通常都是三维数组。在卷积操作中，输入张量的每个二维数组都称为一个输入通道，卷积核的每个二维数组都称为一个输出通道。
复制链接

扫一扫