论文阅Improved Residual Networks for Image and Video Recognition

更新
解读一篇文章至少应该知道它的优缺点,以及每个改进的作用。意识到之前这篇文章没有提到,最近代码小有所成,进而来更新一下当时写的论文理解。

参考

1.IResNet.

链接2讲的非常好,对方法总结的很到位。看了就基本不用看下面的文字了

2.又一个ResNet改进版来了!IResNet:可训练超3000层网络!.
该链接中提到:IResNet是ResNet的改进版,并为CNN的深度建立了一个新的里程碑!IResNet成功地在ImageNet上训练了404层网络,并在CIFAR-10和CIFAR-100上成功训练了3002层网络,而原ResNet却无法在这样的极端深度收敛。这是这个算法最明显的提升。
针对ResNet的三个主要组成部分都提出了改进措施:通过网络层的信息流、残差构建块、projection shortcut
这些改进措施可以比原始ResNet有更高的准确性和更好的持续学习收敛性。重要的是,无需增加模型复杂性即可获得这些改进。
1)通过网络的信息流
ResNet中存在的问题:在信息直连的主通道上有一个ReLU激活层,这个位置的ReLU因为会对负权值清零而对信息传播带来负面影响,尤其再刚开始训练的时候,因为会存在很多的负权值。
将网络划分为不同的阶段,并为阶段的每个部分提出不同的块:开始、中间和结束。就是根据stage不同位置,每个ResBlock都有不同的设计。也提出了一个新的组件顺序,以改善信号在网络中的传播这个改进看着复杂了,但其实并没有增加复杂度,这几个网络的参数量都一样,只是组件的编排方式变了。

2)projection shortcut改进的投影直连方式,减少了信息损失
原始ResNet架构中,如下图(a)所示,由于x和输出维度不匹配,所以就用了一个步长为2的11的卷积进行维度调整,这样channel和spacial matching信息就都由这个11conv完成。作者认为原来架构中步长为2的11 conv会丢失75%的重要信息,而留下的25%的信息也没有设计什么有意义的筛选标准,这会引入噪声和造成信息丢失,对主要通道流信息造成负面影响。
改进为:对于spacial projection,作者使用stride=2的3×3max pooling层,然后,对于channel projection使用stride=1的1×1 conv,然后再跟BN。
优点:
spacial projection将考虑来自特征映射的所有信息,并在下一步中选择激活度最高的元素,减少了信息的损失,后面的实验结果也证明了这点。
这样改进后的projection shortcut,在通道流程上可以看作是“软下采样(conv3
3)”和“硬下采样(3*3max
pooling)”两种方式的结合,是两种方式优势的互补。“硬采样”有助于分类(选择激活程度最高的元素),而“软采样”也有助于不丢失所有空间背景(因此,有助于更好的定位,因为元素之间可以进行过渡比较平滑)。
同样这个改进并不增加模型复杂度和模型参数量,非常实惠。3
3)残差构建块:这个也是对block的改进
作者这篇文章里也利用了分组卷积,不同的是,提出了一种新的积木式结构,网络形状不同,引入了比[35]多两倍的空间滤波器,表现出更好的性能。
不知道这个链接中的queeze-and-excitation and non-local block指的是什么
原始ResNet中的Block:
首先包含一个1×1的conv来减少通道的数量
然后是一个3×3的conv瓶颈来操作最小数量的输入/输出通道
最后是一个1×1的conv来增加通道的数量回到原来的数量。这样设计的原因是为了在较少的通道上运行3×3 conv,以保持计算成本和控制参数的数量。

存在的问题:然而,3×3 conv是非常重要的,因为它是唯一能够学习空间模式的组件,但在上面设计中,它接收的输入/输出通道数量较少,反而限制了它的学习能力。

改进的方法:
作者在这一部分提出了分组卷积ResGroup Block来改变3×3 conv参数量较少的情况。将1×1 conv变为3×3的重分组块,如图3所示,3×3具有最多的通道和更高的空间模式学习能力。该方法比原来的ResNet多引入了4倍的空间信道,比[35]多引入了2倍的空间信道:

腾讯翻译

残差网络在图像和视频识别中的应用:
摘要:残差网络(ResNets)是一种功能强大的卷积神经网络(CNN)结构,在各种任务中被广泛采用和使用。在这项工作中,我们提出了一个改进的ResNets版本。我们提出的改进解决了ResNer的所有三个主要组件:通过网络层的信息流、残差构建块和投影快捷方式。在基线上,我们能够在准确性和学习收敛方面显示出持续的改进。例如,在ImageNet数据集上,使用具有50个图层的ResNet,对于TOP-1精度,我们可以报告在一个设置中比base line提高1.19%,在另一个设置中提高约2%。重要的是,这些改进是在不增加模型复杂度的情况下获得的。我们提出的方法允许我们训练非常深的网络,base line显示出严重的优化问题。我们在六个数据集上报告了三个任务的结果:图像分类(ImageNet,Cifar-10和Cifar-100),目标检测(COCO)和视频动作识别(Kinetics-400和Something-Sthing-v2)。在深度学习时代,我们为CNN的深度树立了一个新的里程碑。我们在ImageNet数据集上成功地训练了404层的CNN,在CIFAR-10和CIFAR-100上成功地训练了3002层的网络,而baseline却不能在如此深的地方收敛。代码可在以下位置获得:

1导言。
我们正处于深度学习时代。从计算机视觉革命[16]开始,网络深度就被强调为在众多任务中获得令人印象深刻的结果的强大表现的关键因素之一。在过去的几年里,卷积神经网络(CNNs)[17,18]的深度不断增加[16,28,30,12,6,7,1,11,36]。然而,随着深度的增加,优化/学习难度也随之增长。添加更多层并不能保证获得更好的效果。残差网络(ResNets)[6]揭示了学习非常深的CNN的问题,并从残差学习的角度提出了一种解决方案。ResNet在学习深度CNN方面非常强大,在实践中得到了广泛的应用,代表了各种复杂任务的骨干/基础,如目标检测和实例分割[6,4,20,19,35,10,34]。鉴于ResNets对于视觉识别中学习深层表示的重要性,本文研究了新的体系结构,并提出了ResNets的改进版本。
ResNet[6]是由大量的构建块堆叠在一起组成的。ResNet的核心思想是在需要时促进其构建块的身份映射的学习。这是通过使用快捷/跳过连接实现的:将块的输入添加到其学习输出。从理论上讲,网络可以自己学习身份映射,而不需要这些捷径。但是,在实践中,优化器要了解标识映射并不容易。这就是所谓的退化问题。当训练一个非常深的网络时,这个问题很容易被注意到,在这个网络中,精度比它的浅层对应的网络差,层次明显更少,即使从理论上说,情况应该是相反的,或者至少不应该变得更糟。。ResNet的想法是解决退化问题的一种解决方案,允许有效地了解更深层次的网络。然而,正如文献[7]所指出的那样,降解问题并没有完全解决,我们的实验也彻底验证了这一点。例如,将ImageNet[27]数据集上的层深度从152层增加到200层会导致明显更糟糕的结果,包括训练错误,这表明存在严重的优化问题。这表明,

当层数增加时,ResNet仍然会损害信息在网络中的传播。在这项工作中,我们提出了一种改进的体系结构设计,以促进信息在网络中的传播。我们的设计规范将网络划分为多个阶段,并根据每个阶段中的位置应用不同的构建块。我们提出的体系结构能够学习非常深的网络,随着深度的增加没有表现出优化难度的能力。

在ResNet中,当构建块的尺寸与下一个构建块的尺寸不匹配时,必须使用投影快捷方式就是下采样。ResNet的工作[6]得出结论,投影快捷方式对于退化问题不是必不可少的。然而,投影快捷方式可以在网络体系结构中发挥重要作用,因为它们位于主信息传播路径上,因此很容易干扰信号或导致信息丢失。本文介绍了一种改进的快捷投影算法,它是一种无参数的改进算法,在性能上有明显的fi提升。

跳层连接的变化

在最初的ResNet[6]中,当深度显著增加时,引入瓶颈积木来控制参数数量和计算成本。然而,在这种积木结构中,唯一负责学习空间fi的卷积接收的输入/输出信道数目最少。我们提出了一种将焦点转移到空间卷积的构建块,我们的体系结构在构建块中包含的空间通道是原始ResNet的四倍[6],同时保持了参数数量和计算成本的控制。

groups

综上所述,本文的主要贡献在于:(1)提出了一种基于阶段的残差学习网络结构。所提出的方法通过为信息通过网络各层传播提供更好的路径来促进学习过程(第3.1节);(2)我们提出了一种改进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值