ResNet网络结构

ResNet网络

在这里插入图片描述

为什么ResNet网络可以搭建超深的网络结构

在ResNet网络提出之前,传统的卷积神经网络都是通过将一系列卷积层与池化层进行堆叠得到的,一般我们会觉得网络越深,特征信息越丰富,模型效果应该越好。但是实验证明,效果并不是如此。

如下图所示,当网络堆叠到一定深度时,反而会出现深层网络比浅层网络效果差的情况
在这里插入图片描述
当网络堆叠到一定深度时,会出现两个问题:

(1)梯度消失或梯度爆炸

关于梯度消失和梯度爆炸,其实看名字理解最好:
若每一层的误差梯度小于1,反向传播时,网络越深,梯度越趋近于0
反之,若每一层的误差梯度大于1,反向传播时,网路越深,梯度越来越大

对于梯度消失或梯度爆炸问题,ResNet论文提出通过数据的预处理以及在网络中使用 BN(Batch Normalization)层来解决。

(2)退化问题(degradation problem):

在解决了梯度消失、爆炸问题后,仍然存在深层网络的效果可能比浅层网络差的现象

对于退化问题,ResNet论文提出了 residual结构(残差结构)来减轻退化问题



下图是使用residual结构(残差结构)的卷积网络,可以看到随着网络的不断加深,效果并没有变差,而是变的更好了。(虚线是train error,实线是test error)。
在这里插入图片描述为了解决深层网络中的退化问题,可以人为地让神经网络某些层跳过下一层神经元的连接,隔层相连,弱化每层之间的强联系。这种神经网络被称为 残差网络 (ResNets)

残差网络由许多隔层相连的神经元子模块组成,我们称之为 残差块 Residual block。单个残差块的结构如下图所示:
在这里插入图片描述

ResNet中的残差结构

实际应用中,残差结构的 short cut 不一定是隔一层连接,也可以中间隔多层,ResNet所提出的残差网络中就是隔多层。

跟VggNet类似,ResNet也有多个不同层的版本,而残差结构也有两种对应浅层和深层网络:
在这里插入图片描述下图中左侧残差结构称为 BasicBlock,右侧残差结构称为 Bottleneck
在这里插入图片描述
下图是原论文给出的不同深度的ResNet网络结构配置,注意表中的残差结构给出了主分支上卷积核的大小与卷积核个数,表中 残差块×N 表示将该残差结构重复N次。
在这里插入图片描述原文的表注中已说明,对于ResNet 18/34/50/101/152,conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层残差结构都是虚线残差结构

因为这一系列残差结构的第一层都有调整输入特征矩阵shape的使命(将特征矩阵的高和宽缩减为原来的一半,将深度channel调整成下一层残差结构所需要的channel



需要注意的是,对于ResNet50/101/152,其实conv2_x所对应的一系列残差结构的第一层也是虚线残差结构,因为它需要调整输入特征矩阵的channel
根据表格可知通过3x3的max pool之后输出的特征矩阵shape应该是[56, 56, 64],但conv2_x所对应的一系列残差结构中的实线残差结构它们期望的输入特征矩阵shape是[56, 56, 256](因为这样才能保证输入输出特征矩阵shape相同,才能将捷径分支的输出与主分支的输出进行相加)。
所以第一层残差结构需要将shape从[56, 56, 64] --> [56, 56, 256]。注意,这里只调整channel维度,高和宽不变(而conv3_x, conv4_x, conv5_x所对应的一系列残差结构的第一层虚线残差结构不仅要调整channel还要将高和宽缩减为原来的一半)。



下面是 ResNet 18/34 和 ResNet 50/101/152 具体的实线/虚线残差结构图:

ResNet 18/34

在这里插入图片描述
ResNet 50/101/152s
在这里插入图片描述
观察下图的 ResNet18层网络,可以发现有些残差块的 short cut 是实线的,而有些则是虚线的。
这些虚线的 short cut 上通过1×1的卷积核进行了维度处理(特征矩阵在长宽方向降采样,深度方向调整成下一层残差结构所需要的channel)。

在这里插入图片描述

Batch Normalization详解(参考博客)

1.Batch Normalization原理

我们在图像预处理过程中通常会对图像进行标准化处理,这样能够加速网络的收敛,如下图所示,对于Conv1来说输入的就是满足某一分布的特征矩阵,但对于Conv2而言输入的feature map就不一定满足某一分布规律了(注意这里所说满足某一分布规律并不是指某一个feature map的数据要满足分布规律,理论上是指整个训练样本集所对应feature map的数据要满足分布规律)。而我们Batch Normalization的目的就是使我们的feature map满足均值为0,方差为1的分布规律。
在这里插入图片描述
看到这里应该还是蒙的,不要慌,喝口水,慢慢来。下面是从原论文中截取的原话,注意标黄的部分:
在这里插入图片描述

“对于一个拥有d维的输入x,我们将对它的每一个维度进行标准化处理。” 假设我们输入的x是RGB三通道的彩色图像,那么这里的d就是输入图像的channels即d=3,x=( x ( 1 ) x^{(1)} x(1), x ( 2 ) x^{(2)} x(2), x ( 3 ) x^{(3)} x(3)),其中 x ( 1 ) x^{(1)} x(1)就代表我们的R通道所对应的特征矩阵,依此类推。标准化处理也就是分别对我们的R通道,G通道,B通道进行处理。上面的公式不用看,原文提供了更加详细的计算公式:

在这里插入图片描述
我们刚刚有说让feature map满足某一分布规律,理论上是指整个训练样本集所对应feature map的数据要满足分布规律,也就是说要计算出整个训练集的feature map然后在进行标准化处理,对于一个大型的数据集明显是不可能的,所以论文中说的是Batch Normalization,也就是我们计算一个Batch数据的feature map然后在进行标准化(batch越大越接近整个数据集的分布,效果越好)。我们根据上图的公式可以知道 μ B \mu _{B} μB代表着我们计算的feature map每个维度(channel)的均值,注意 μ B \mu _{B } μB是一个向量不是一个值, μ B \mu _{B } μB向量的每一个元素代表着一个维度(channel)的均值。 σ B 2 \sigma_{B}^{2} σB2代表着我们计算的feature map每个维度(channel)的标准差,注意 σ B 2 \sigma_{B}^{2} σB2是一个向量不是一个值, σ B 2 \sigma_{B}^{2} σB2向量的每一个元素代表着一个维度(channel)的方差,然后根据 μ B \mu _{B } μB σ B 2 \sigma_{B}^{2} σB2计算标准化处理后得到的值。下图给出了一个计算均值 μ B \mu _{B } μB和方差 σ B 2 \sigma_{B}^{2} σB2的示例:

在这里插入图片描述
上图展示了一个batch size为2(两张图片)的Batch Normalization的计算过程,假设feature1、feature2分别是由image1、image2经过一系列卷积池化后得到的特征矩阵,feature的channel为2,那么 x ( 1 ) x^{(1)} x(1)代表该batch的所有feature的channel1的数据,同理 x ( 2 ) x^{(2)} x(2)代表该batch的所有feature的channel2的数据。然后分别计算 x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的均值与方差,得到我们的 μ B \mu _{B } μB σ B 2 \sigma_{B}^{2} σB2两个向量。然后在根据标准差计算公式分别计算每个channel的值(公式中的 ϵ \epsilon ϵ是一个很小的常量,防止分母为零的情况)。在我们训练网络的过程中,我们是通过一个batch一个batch的数据进行训练的,但是我们在预测过程中通常都是输入一张图片进行预测,此时batch size为1,如果在通过上述方法计算均值和方差就没有意义了。所以我们在训练过程中要去不断的计算每个batch的均值和方差,并使用移动平均(moving average)的方法记录统计的均值和方差,在我们训练完后我们可以近似认为我们所统计的均值和方差就等于我们整个训练集的均值和方差。然后在我们验证以及预测过程中,就使用我们统计得到的均值和方差进行标准化处理。

细心的同学会发现,在原论文公式中不是还有 γ \gamma γ β \beta β两个参数吗?是的, γ \gamma γ是用来调整数值分布的方差大小, β \beta β是用来调节数值均值的位置。这两个参数是在反向传播过程中学习得到的, γ \gamma γ的默认值是1, β \beta β的默认值是0。

3.使用BN时需要注意的问题

(1)训练时要将traning参数设置为True,在验证时将trainning参数设置为False。在pytorch中可通过创建模型的model.train()和model.eval()方法控制。

(2)batch size尽可能设置大点,设置小后表现可能很糟糕,设置的越大求的均值和方差越接近整个训练集的均值和方差。

(3)建议将bn层放在卷积层(Conv)和激活层(例如Relu)之间,且卷积层不要使用偏置bias,因为没有用,参考下图推理,即使使用了偏置bias求出的结果也是一样的

在这里插入图片描述

迁移学习简介

迁移学习是一个比较大的领域,我们这里说的迁移学习是指神经网络训练中使用到的迁移学习。

在迁移学习中,我们希望利用源任务(Source Task)学到的知识帮助学习目标任务 (Target Task)。例如,一个训练好的图像分类网络能够被用于另一个图像相关的任务。再比如,一个网络在仿真环境学习的知识可以被迁移到真实环境的网络。迁移学习一个典型的例子就是载入训练好VGG网络,这个大规模分类网络能将图像分到1000个类别,然后把这个网络用于另一个任务,如医学图像分类。

为什么可以这么做呢?如下图所示,神经网络逐层提取图像的深层信息,这样,预训练网络就相当于一个特征提取器。
在这里插入图片描述
使用迁移学习的优势:

能够快速的训练出一个理想的结果
当数据集较小时也能训练出理想的效果

注意:使用别人预训练好的模型参数时,要注意别人的预处理方式。

常见的迁移学习方式:

载入权重后训练所有参数
载入权重后只训练最后几层参数
载入权重后在原网络基础上再添加一层全连接层,仅训练最后一个全连接层

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值