Improved Residual Networks for Image and Video Recognition

通过这篇文章对该论文进行的了解
更推崇上面这篇文章,因为写的很详细
动机:
1.ResNet的主要结构是ResBlock块,。ResNet的特定设计是为了方便信息在网络中进行前向传播和反向传播。每个ResBlock包含三个卷积(2个1×1和1个3×3),然后加3个ReLU层。会对负权值清零而对信息传播带来负面影响,尤其再刚开始训练的时候,因为会存在很多的负权值。
2.原始ResNet架构中,由于x和输出维度不匹配,所以就用了一个步长为2的11的卷积进行维度调整,这样channel和spacial matching信息就都由这个11conv完成。作者认为原来架构中步长为2的1*1 conv会丢失75%的重要信息,而留下的25%的信息也没有设计什么有意义的筛选标准,这会引入噪声和造成信息丢失,对主要通道流信息造成负面影响。
3.原始ResNet的bottleneck由三部分组成,然而,3×3 conv是非常重要的,因为它是唯一能够学习空间模式的组件,但在上面设计中,它接收的输入/输出通道数量较少,反而限制了它的学习能力。

贡献:
(1)提出了一种基于分段的残差学习网络结构。该方法为信息在网络各层间的传播提供了更好的途径,从而简化了学习过程。
(2)提出了一种改进的投影直连方式,减少了信息损失,提供了更好的结果。
(3)提出了一种可大大增加学习更强大空间模式的空间通道的构建块。
(4)本文方法在基线的基础上提供了一种改进,这些改进是在不增加模型复杂性。

结构:
针对第一个问题提出下图c的结构:
在这里插入图片描述

就是把网络结构分为三个部分,四个主要stages(其中包含ResBlocks)和一个启动和结束阶段。四个主要阶段中的每个stage都可以包含若干Blocks;stage1有3个ResBlock, stage2有4个,stage3有6个,stage4有3个。每个stage又分为三个部分:一个开始ResBlock,若干个中间ResBlock(可以是任意数量;在ResNet-50的情况下,有[1,2,4,1]对应stage的中间ResBlock)和一个结束ResBlock。
针对第二个问题:
在这里插入图片描述

如图中(b)所示。对于spacial projection,作者使用stride=2的3×3max pooling层,然后,对于channel projection使用stride=1的1×1 conv,然后再跟BN。
这样做的好处是:
spacial projection将考虑来自特征映射的所有信息,并在下一步中选择激活度最高的元素,减少了信息的损失,后面的实验结果也证明了这点。同时,这样改进后的projection shortcut,在通道流程上可以看作是“软下采样(conv33)”和“硬下采样(33max pooling)”两种方式的结合,是两种方式优势的互补。“硬采样”有助于分类(选择激活程度最高的元素),而“软采样”也有助于不丢失所有空间背景(因此,有助于更好的定位,因为元素之间可以进行过渡比较平滑)。
针对第三个问题:
在这里插入图片描述

作者在这一部分提出了分组卷积ResGroup Block来改变3×3 conv参数量较少的情况。将1×1 conv变为3×3的重分组块,如图3所示,3×3具有最多的通道和更高的空间模式学习能力。该方法比原来的ResNet多引入了4倍的空间信道。
网络结构如下表:
在这里插入图片描述

实验:
作者在CIFAR-100数据集上进行了不同网络深度的对比,如下图所示:
在这里插入图片描述

在InamgeNet上的不同网络深度对比曲线:
在这里插入图片描述

做了网络层数增加到302和404的实验:
在这里插入图片描述

使用iresnet进行视频识别:
在这里插入图片描述

在CIFAR-10/100的分类对比:
在这里插入图片描述

使用了用了iResNet的SSD
在这里插入图片描述

与各个backbone的比较结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值