并行连结的网络GoogLeNet

最新推荐文章于 2023-12-15 21:47:52 发布

Helloworld188888

最新推荐文章于 2023-12-15 21:47:52 发布

阅读量333

点赞数 1

分类专栏：深度学习 Python pytorch 文章标签：计算机视觉深度学习 cnn

本文链接：https://blog.csdn.net/qq_24951479/article/details/130381006

版权

Python 同时被 3 个专栏收录

39 篇文章 3 订阅

订阅专栏

深度学习

37 篇文章 1 订阅

订阅专栏

pytorch

27 篇文章 1 订阅

订阅专栏

1. Inception模块

Inception模块是GoogLeNet网络的核心部分，它是一种多分支卷积神经网络结构。Inception模块通过在不同尺度上使用不同大小的卷积核和池化核，来提取图像的多尺度特征。这种多分支的结构可以使网络在保持计算量相对较小的同时，提高网络的准确率。

Inception模块的结构如下图所示：

Inception模块的设计思路是通过并行连结不同大小的卷积核和池化层，来捕捉不同尺度的特征信息。具体来说，Inception模块包含了1x1、3x3、5x5的卷积核和3x3的池化层，然后将它们的输出在通道维度上进行拼接，形成输出张量。

假设输入张量为 $X$ ，经过Inception模块后得到的输出张量为 $Y$ ，则Inception模块的计算过程可以表示为：

$\text{concat}(Conv_{1x1}(X), Conv_{3x3}(X), Conv_{5x5}(X), Pool_{3x3}(X))$

其中， $\text{concat}$ 表示在通道维度上进行拼接， $Conv_{1x1}(X)$ 、 $Conv_{3x3}(X)$ 、 $Conv_{5x5}(X)$ 和 $Pool_{3x3}(X)$ 分别表示对输入张量 $X$ 进行1x1卷积、3x3卷积、5x5卷积和3x3池化操作得到的输出张量。

对于1x1卷积，其计算公式为：

$Conv_{1x1}(X)_{i,j,k} = \sum_{c=1}^{C}W_{1,c,k}X_{i,j,c}+b_k$

其中， $W_{1,c,k}$ 表示1x1卷积核的第 $c$ 个通道和第 $k$ 个通道之间的权重， $b_k$ 表示第 $k$ 个通道的偏置。

对于3x3卷积，其计算公式为：

$Conv_{3x3}(X)_{i,j,k} = \sum_{p=-1}^{1}\sum_{q=-1}^{1}\sum_{c=1}^{C}W_{3,p,q,c,k}X_{i+p,j+q,c}+b_k$

其中， $W_{3,p,q,c,k}$ 表示3x3卷积核的第 $c$ 个通道、第 $p$ 行、第 $q$ 列和第 $k$ 个通道之间的权重， $b_k$ 表示第 $k$ 个通道的偏置。

对于5x5卷积，其计算公式为：

$Conv_{5x5}(X)_{i,j,k} = \sum_{p=-2}^{2}\sum_{q=-2}^{2}\sum_{c=1}^{C}W_{5,p,q,c,k}X_{i+p,j+q,c}+b_k$

其中， $W_{5,p,q,c,k}$ 表示5x5卷积核的第 $c$ 个通道、第 $p$ 行、第 $q$ 列和第 $k$ 个通道之间的权重， $b_k$ 表示第 $k$ 个通道的偏置。

对于3x3池化，其计算公式为：

$Pool_{3x3}(X)_{i,j,k} = \max_{p=-1}^{1}\max_{q=-1}^{1}X_{i+p,j+q,k}$

最后，将四个输出张量在通道维度上进行拼接，得到输出张量 $Y$ 。

具体数值的公式推导例子

假设输入张量 $X$ 的形状为 $3\times 224\times 224$ ，且假设 $Conv_{1x1}(X)$ 、 $Conv_{3x3}(X)$ 、 $Conv_{5x5}(X)$ 和 $Pool_{3x3}(X)$ 的输出通道数分别为 $64$ 、 $128$ 、 $32$ 和 $32$ ，则Inception模块的计算过程可以表示为：

$\begin{aligned} Y &= \text{concat}(Conv_{1x1}(X), Conv_{3x3}(X), Conv_{5x5}(X), Pool_{3x3}(X)) \\ &= \text{concat}(Conv_{1x1}(X), Conv_{3x3}(X), Conv_{5x5}(X), Pool_{3x3}(X))_{64+128+32+32\times 3\times 3} \\ &= \text{concat}(Conv_{1x1}(X)_{64\times 224\times 224}, Conv_{3x3}(X)_{128\times 224\times 224}, Conv_{5x5}(X)_{32\times 224\times 224}, Pool_{3x3}(X)_{32\times 74\times 74}) \\ &= \begin{bmatrix} Conv_{1x1}(X)_{64\times 224\times 224} \\ Conv_{3x3}(X)_{128\times 224\times 224} \\ Conv_{5x5}(X)_{32\times 224\times 224} \\ Pool_{3x3}(X)_{32\times 74\times 74} \end{bmatrix} \end{aligned}$

其中， $Conv_{1x1}(X)_{64\times 224\times 224}$ 、 $Conv_{3x3}(X)_{128\times 224\times 224}$ 、 $Conv_{5x5}(X)_{32\times 224\times 224}$ 和 $Pool_{3x3}(X)_{32\times 74\times 74}$ 分别表示对输入张量 $X$ 进行1x1卷积、3x3卷积、5x5卷积和3x3池化操作得到的输出张量。具体的计算过程可以通过将输入张量 $X$ 和卷积核张量 $W$ 带入上述卷积和池化的计算公式中进行计算。

下面是Inception模块的结构图，使用Mermaid代码绘制：

其中， $X$ 表示输入张量， $C o n v 1 x 1$ 、 $C o n v 3 x 3$ 、 $C o n v 5 x 5$ 和 $P oo l 3 x 3$ 分别表示对输入张量进行1x1卷积、3x3卷积、5x5卷积和3x3池化操作， $C o n c a t$ 表示在通道维度上进行拼接， $Y$ 表示输出张量。

下面我们将分别介绍每个分支的具体实现。

2. 1x1卷积分支

$1\times1$ 卷积分支是Inception模块中最简单的分支，它只包含一个 $1\times1$ 卷积层。这个卷积层的作用是对输入数据进行降维，从而减少计算量。 $1\times1$ 卷积分支的结构如下图所示：

3. $3\times3$ 卷积分支

$3\times3$ 卷积分支用来提取输入数据的 $3\times3$ 的局部特征。这个分支包含了一个 $1\times1$ 卷积层和一个 $3\times3$ 卷积层。 $1\times1$ 卷积层的作用和 $1\times1$ 卷积分支一样，用来降低输入数据的通道数。 $3\times3$ 卷积层用来提取输入数据的 $3\times3$ 的局部特征。 $3\times3$ 卷积分支的结构如下图所示：

4. $5\times5$ 卷积分支

$5\times5$ 卷积分支用来提取输入数据的 $5\times5$ 的局部特征。这个分支包含了一个 $1\times1$ 卷积层和一个 $5\times5$ 卷积层。 $1\times1$ 卷积层的作用和 $1\times1$ 卷积分支一样，用来降低输入数据的通道数。 $5\times5$ 卷积层用来提取输入数据的 $5\times5$ 的局部特征。 $5\times5$ 卷积分支的结构如下图所示：

5. $3\times3$ 最大池化分支

$3\times3$ 最大池化分支用来提取输入数据的空间信息。这个分支包含了一个 $3\times3$ 的最大池化层。 $3\times3$ 最大池化分支的结构如下图所示：

6. 拼接分支

最后，将四个分支的输出在通道维度上进行拼接，得到Inception模块的输出。拼接分支的结构如下图所示：

7. 代码实现

下面是使用PyTorch实现Inception模块的代码：

import torch.nn as nn

class InceptionModule(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(InceptionModule, self).__init__()
        self.conv1x1 = nn.Conv2d(in_channels, out_channels[0], kernel_size=1)
        self.conv3x3_reduce = nn.Conv2d(in_channels, out_channels[1], kernel_size=1)
        self.conv3x3 = nn.Conv2d(out_channels[1], out_channels[2], kernel_size=3, padding=1)
        self.conv5x5_reduce = nn.Conv2d(in_channels, out_channels[3], kernel_size=1)
        self.conv5x5 = nn.Conv2d(out_channels[3], out_channels[4], kernel_size=5, padding=2)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
    
    def forward(self, x):
        out1 = self.conv1x1(x)
        out2 = self.conv3x3_reduce(x)
        out2 = self.conv3x3(out2)
        out3 = self.conv5x5_reduce(x)
        out3 = self.conv5x5(out3)
        out4 = self.maxpool(x)
        out4 = self.conv1x1(out4)
        out = torch.cat([out1, out2, out3, out4], dim=1)
        return out

8. 总结

Inception模块是一种多分支卷积神经网络结构，可以在不同尺度上使用不同大小的卷积核和池化核，来提取图像的多尺度特征。这种多分支的结构可以使网络在保持计算量相对较小的同时，提高网络的准确率。在实现Inception模块时，我们可以使用PyTorch提供的卷积层和池化层来实现各个分支，然后在通道维度上进行拼接，得到Inception模块的输出。

Helloworld188888

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
并行连结的网络GoogLeNet

Inception模块是一种多分支卷积神经网络结构，可以在不同尺度上使用不同大小的卷积核和池化核，来提取图像的多尺度特征。这种多分支的结构可以使网络在保持计算量相对较小的同时，提高网络的准确率。在实现Inception模块时，我们可以使用PyTorch提供的卷积层和池化层来实现各个分支，然后在通道维度上进行拼接，得到Inception模块的输出。
复制链接

扫一扫