本文链接：https://blog.csdn.net/lowellyu/article/details/105786440

通过这篇文章对该论文进行的了解
更推崇上面这篇文章，因为写的很详细
动机：
1.ResNet的主要结构是ResBlock块，。ResNet的特定设计是为了方便信息在网络中进行前向传播和反向传播。每个ResBlock包含三个卷积（2个1×1和1个3×3），然后加3个ReLU层。会对负权值清零而对信息传播带来负面影响，尤其再刚开始训练的时候，因为会存在很多的负权值。
2.原始ResNet架构中，由于x和输出维度不匹配，所以就用了一个步长为2的11的卷积进行维度调整，这样channel和spacial matching信息就都由这个11conv完成。作者认为原来架构中步长为2的1*1 conv会丢失75%的重要信息，而留下的25%的信息也没有设计什么有意义的筛选标准，这会引入噪声和造成信息丢失，对主要通道流信息造成负面影响。
3.原始ResNet的bottleneck由三部分组成，然而，3×3 conv是非常重要的，因为它是唯一能够学习空间模式的组件，但在上面设计中，它接收的输入/输出通道数量较少，反而限制了它的学习能力。

贡献：
(1)提出了一种基于分段的残差学习网络结构。该方法为信息在网络各层间的传播提供了更好的途径，从而简化了学习过程。
(2)提出了一种改进的投影直连方式，减少了信息损失，提供了更好的结果。
(3)提出了一种可大大增加学习更强大空间模式的空间通道的构建块。
(4)本文方法在基线的基础上提供了一种改进，这些改进是在不增加模型复杂性。

结构：
针对第一个问题提出下图c的结构：
在这里插入图片描述

就是把网络结构分为三个部分，四个主要stages(其中包含ResBlocks)和一个启动和结束阶段。四个主要阶段中的每个stage都可以包含若干Blocks；stage1有3个ResBlock， stage2有4个，stage3有6个，stage4有3个。每个stage又分为三个部分:一个开始ResBlock，若干个中间ResBlock(可以是任意数量;在ResNet-50的情况下，有[1,2,4,1]对应stage的中间ResBlock)和一个结束ResBlock。
针对第二个问题：
在这里插入图片描述

如图中(b)所示。对于spacial projection，作者使用stride=2的3×3max pooling层，然后，对于channel projection使用stride=1的1×1 conv，然后再跟BN。
这样做的好处是:
spacial projection将考虑来自特征映射的所有信息，并在下一步中选择激活度最高的元素,减少了信息的损失，后面的实验结果也证明了这点。同时，这样改进后的projection shortcut，在通道流程上可以看作是“软下采样（conv33）”和“硬下采样（33max pooling）”两种方式的结合，是两种方式优势的互补。“硬采样”有助于分类（选择激活程度最高的元素），而“软采样”也有助于不丢失所有空间背景（因此，有助于更好的定位，因为元素之间可以进行过渡比较平滑）。
针对第三个问题：
在这里插入图片描述