关于ResNet网络的一点理解(网络结构、building block 及 “bottleneck” building block)

【时间】2018.10.05

【题目】关于ResNet网络的一点理解(网络结构、building block 及 “bottleneck” building block)

 

概述

   本文主要讲解对ResNet网络结构、building block 及 “bottleneck” building block的一些理解,主要讲述了ResNet网络结构的构成,以及building block 如何转换为对应的 “bottleneck” building block。而有关残差的相关内容已经有很多博主进行了详细的阐述,在此就不赘述了。

 

一、ResNet网络结构

1.1.原论文描述

  Plain Network. Our plain baselines (Fig. 3, middle) are mainly inspired by the philosophy of VGG nets [41] (Fig. 3, left). The convolutional layers mostly have 3×3 filters and follow two simple design rules: (i) for the same output feature map size, the layers have the same number of filters; and (ii) if the feature map size is halved, the number of filters is doubled so as to preserve the time complexity per layer. We perform downsampling directly by convolutional layers that have a stride of 2. The network ends with a global average pooling layer and a 1000-way fully-connected layer with softmax. The total number of weighted layers is 34 in Fig. 3 (middle).

Plain网络。我们的plain网络结构(图3,中)主要受VGG网络 (图.3,左)的启发。卷积层主要为3*3的滤波器,并遵循以下两点要求:(i) 输出特征映射尺寸相同的层含有相同数量的滤波器;(ii) 如果特征尺寸减半,则滤波器的数量增加一倍来保证每层的时间复杂度相同。我们直接用步长为2的卷积层进行下采样。网络以一个全局平均池层和一个带有Softmax的1000路全连接层结束。在图3(中),有权值的层的总数为34 。

 

        图3 对应于ImageNet的网络框架举例。 :VGG-19模型 (196亿个FLOPs)作为参考。:plain网络,含有34个参数层(36 亿个FLOPs)。:残差网络,含有34个参数层(36亿个FLOPs)。虚线表示的shortcuts增加了维度。Table 1展示了更多细节和其它变体。 

 

   表1. 对应于ImageNet的结构框架。括号中为构建块的参数(同样见Fig.5),数个构建块进行堆叠。下采样由stride为2的conv3_1、conv4_1和conv5_1 来实现。

      Residual Network. Based on the above plain network, we insert shortcut connections (Fig. 3, right) which turn the network into its counterpart residual version. The identity shortcuts (Eqn.(1)) can be directly used when the input and output are of the same dimensions (solid line shortcuts in Fig.3). When the dimensions increase(dotted line shortcuts in Fig. 3), we consider two options: (A) The shortcut still performs identity mapping, with extra zero entries padded for increasing dimensions. This option introduces no extra parameter; (B) The projection shortcut in Eqn.(2) is used to match dimensions (done by 1×1 convolutions). For both options, when the shortcuts go across feature maps of two sizes, they are performed with a stride of 2.

      残差网络。基于上述plain网络,我们插入快捷连接(图3,右)将网络转换为对应的残差版本。当输入和输出尺寸相同时(图3中的实线快捷连接),可以直接使用恒等快捷键(eqn.1)。 当维度增加时(Fig.3中的虚线部分),考虑两个选项: (A) shortcut仍然使用恒等映射,在增加的维度上使用0来填充,这样做不会增加额外的参数; (B) 使用Eq.2的映射shortcut来使维度保持一致(通过1*1的卷积)。  对于这两个选项,当shortcut跨越两种尺寸的特征图时,均使用stride为2的卷积。

 

1.2 对网络结构的理解

   (1)各个ResNet的结构如表1所示。在较浅层次的网络中(ResNet-18/34),它由下图2中的building Block块构建而成,如表1中红框内表示3个building Block块构成了conv2.x;而在较深的网络中,网络由“bottleneck”building Block块构成,如表1中蓝框内表示3个“bottleneck”building Block块构成了conv2.x;

卷积实现:

   (2)在每个卷积块中(conv2.x/conv3.x/conv4.x/conv5.x),分为两类:一是conv2.x中,它先采用步长为2的最大池化使得特征图的尺寸下降一半(应该是有进行零填充的0),之后是3个building Block块,并且每个building Block块的输入及输出尺寸是一样的。二是在conv3.x/conv4.x/conv5.x中,尺寸的下降一半是通过第一个卷积(conv3_1、conv4_1和conv5_1)采取步长为2实现的,因此,在第一个building Block块中,输入及输出的特征图的尺寸是不一样的,而剩余的building Block块的输入及输出尺寸是一样的。以conv3.x为例,第一个building Block块中输入输出分别56x56和28x28,剩余的building Block块的输入及输出尺寸都是28x28。

    (3)对于(2)中所说的,尺寸的下降一半是通过第一个卷积(conv3_1、conv4_1和conv5_1)采取步长为2实现的,个人的理解是只是对图5中红框部分采用了步长为2的卷积,其余的还是步长位1,这个还未验证,之后看了相关的代码的实现再来确定他的实现。

二、“bottleneck”building Block块

2.1.原文描述

 Deeper Bottleneck Architectures. Next we describe our deeper nets for ImageNet. Because of concerns on the training time that we can afford, we modify the building block as a bottleneck design 4 . For each residual function F, we use a stack of 3 layers instead of 2 (Fig. 5). The three layers are 1×1, 3×3, and 1×1 convolutions, where the 1×1 layers are responsible for reducing and then increasing (restoring) dimensions, leaving the 3×3 layer a bottleneck with smaller

input/output dimensions. Fig. 5 shows an example, where both designs have similar time complexity.

更深层次的瓶颈架构。接下来,我们将描述我们针对ImageNet的更深层次的网络。由于考虑到我们负担得起的训练时间,我们将积木块(building block)修改为瓶颈设计(bottleneck design)。对于每个残差函数F,我们使用一个由3层组成的堆栈,而不是2层(图5)。这三层分别是1×1、3×3和1×1卷积,其中1×1层负责减小然后增加(恢复)维数,使3×3层成为输入/输出维数较小的瓶颈。图5给出了一个例子,其中两种设计都具有相似的时间复杂度。

图5、ImageNet的一个更深层次的残差函数F。左图:如图3所示的用于ResNet-34的一个及积木块(在56×56特征图上)。右:ResNet-50/101/152的“瓶颈”积木块。

 

2.2 对“bottleneck”building Block块理解

(1)为何说两种设计都具有相似的时间复杂度?我们以图5为例进行验证,图5对应conv2.x,输出特征图的尺寸为56x56,我们主要计算卷积中的乘法次数,对于图5左边,乘法次数是(3x3x64x56x56x64)x2,对于图5右边,乘法次数是1x1x256x56x56x64+3x3x64x56x56x64+1x1x64x56x56x256,红色部分是一样的,剩余部分由于256=64x4,前者可以分解为3x3x(64x56x56x64),后者可以分解为(4+4)x(64x56x56x64),是9与8的细微差别,所以说具有相似的时间复杂度。

(2)如何将building Block块转换为对应的“bottleneck”building Block块?通过(1)的计算过程,可知,就保证时间复杂度相似而言,只需要将输出的维度变为原来的4倍就行了,比如原本的building Block块是{(3x3,d),(3x3,d},则转换后的对应“bottleneck”building Block块为{(1x1,d),(3x3,d),(1x1,4xd)}。

 

<think>好的,我需要帮助用户找到ResNet50的Bottleneck结构图,并解释其设计原理。首先,根据用户提供的引用资料,特别是引用[1]、[2]和[4],Bottleneck结构主要使用1x1卷积来降低和升高维度,从而减少计算量。ResNet50属于深层网络,因此采用Bottleneck结构,而Building Block用于较浅的ResNet如18和34层。接下来,我需要确认Bottleneck的具体组成。引用[4]提到右边结构中的三个卷积层:1x1卷积降维,3x3卷积处理特征,1x1卷积恢复维度。例如,输入通道数为256时,第一个1x1卷积将其降到64,减少后续3x3卷积的计算量,最后再恢复回256。这样参数数量大幅减少,约69632,而普通结构需要1179648,相差约16.94倍,这解释了Bottleneck如何降低计算量。 然后,用户可能需要结构图的来源。根据引用[1]和[3],论文《Deep ResidualLearning forImage Recognition》和《IdentityMappingsin DeepResidual Networks》中应有相关图示。建议用户查阅这些论文或可靠的深度学习资料网站如arXiv、CVFOpenAccess、知乎或Github项目,这些地方通常会提供结构图。此外,需要解释Bottleneck的设计原则,如引用[4]所述,当feature map大小减半时,数量加倍,保持复杂度。这帮助用户理解为何ResNet50选择这种结构。最后,生成相关问题,覆盖结构组成、计算量减少原因、与浅层ResNet的区别、设计原则及实际应用,以帮助用户深入理解。</think>### ResNet50的Bottleneck结构详解 ResNet50的Bottleneck结构是其核心模块,通过**1×1卷积降维与升维**实现高效特征提取,同时显著降低计算量[^1][^4]。以下是其组成和设计原理: --- #### 1. **Bottleneck结构组成** - **输入通道**:假设输入特征图维度为$H×W×C$(例如$56×56×256$) - **三阶段卷积操作**: 1. **1×1卷积降维**:将通道数从$C$压缩到$C/4$(例如256→64),参数量为$1×1×256×64$[^4] 2. **3×3卷积特征提取**:保持通道数为$C/4$(例如64→64),参数量为$3×3×64×64$ 3. **1×1卷积升维**:恢复通道数到$C$(例如64→256),参数量为$1×1×64×256$ - **残差连接**:将输入直接与输出相加(需匹配维度) $$ \text{总参数量} = 1^2×256×64 + 3^2×64×64 + 1^2×64×256 = 69,632 $$ --- #### 2. **对比非Bottleneck结构** - 若使用两个3×3卷积: $$ \text{参数量} = 2×(3^2×256×256) = 1,179,648 $$ - **计算量减少倍数**:$1,179,648 / 69,632 ≈ 16.94$倍[^4] --- #### 3. **结构图来源建议** - **论文**: - 原始结构图见《Deep Residual Learning for Image Recognition》[^1] - 改进版本见《Identity Mappings in Deep Residual Networks》[^3] - **在线资源**: - arXiv论文插图(搜索ResNet50 Bottleneck) - 知乎技术文章(例如《ResNet详解与分析》) - GitHub开源项目(如PyTorch官方模型库) --- #### 4. **设计原则** - **维度匹配**:当特征图尺寸减半时(如通过步长为2的卷积),通道数加倍(例如256→512)[^4] - **恒等映射**:通过残差连接避免梯度消失,增强反向传播效果[^3] ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值