ResNetV2：ResNet深度解析

最新推荐文章于 2024-05-29 16:20:46 发布

懒人元

最新推荐文章于 2024-05-29 16:20:46 发布

阅读量2.4w

点赞数 24

分类专栏： ResNet 深度学习文章标签： ResnetV2 ResNet 深度学习与计算机视觉

本文链接：https://blog.csdn.net/lanran2/article/details/80247515

版权

ResNet残差网络，想必大家一定很熟悉了，那么先考考大家，下面（1）-（5）的结构哪个是我们常用的ResNet结构？
这里写图片描述
其中weight指conv层，BN指Batch Normalization层，ReLU指激活层，addition指相加；
根据ResNet的描述，似乎以上五组都符合，那么2016年ResNet原文是哪一个结构呢？以及其他四组结构也都work么？我们不禁有了这两个疑问，伴随着疑问我们一一揭开谜题；
针对第一个问题，ResNet原文中使用的结构是（1），（1）的特点有两个：1）BN和ReLU在weight的后面；2）最后的ReLU在addition的后面；对于特点1），属于常规范畴，我们平时也都这个顺序：Conv->BN->ReLU；对于特点2），为什么ReLU放在addition后面呢？按照常规，不是应该是图（3）这种么，那么我们接下来引出的问题就是：

图（3）的结构work么？

对于每个图右侧部分我们称作“residual”分支，左侧部分我们称作“identity”分支，如果ReLU作为“residual”分支的结尾，我们不难发现“residual”分支的结果永远非负，这样前向的时候输入会单调递增，从而会影响特征的表达能力，所以我们希望“residual”分支的结果应该在（- $\infty$ ， + $\infty$ ）；这点也是我们以后设计网络时所要注意的。

对于图（3）不OK的情况，那如果把BN也挪到addition后面呢？如图（2），同时也保证了“residual”分支的取值范围；

这里BN改变了“identity”分支的分布，影响了信息的传递，在训练的时候会阻碍loss的下降；这里大家肯定又有个问题：

为什么“identity”分支发生变化，会影响信息传递，从而影响训练呢？

这里简单回顾ResNet的公式：
$y_l=h(x_l)+F(x_l, W_l)$ and $x_{l+1} = f(y_l)$
简化以上公式，令所有“identity”分支都是 $h(x_l) = x_l$ 以及 $x_{l+1} = y_l$ ，那么得到:

最低0.47元/天解锁文章

懒人元

关注

24
点赞
踩
87

收藏

觉得还不错? 一键收藏
11
评论
ResNetV2：ResNet深度解析

ResNet残差网络，想必大家一定很熟悉了，那么先考考大家，下面（1）-（5）的结构哪个是我们常用的ResNet结构？其中weight指conv层，BN指Batch Normalization层，ReLU指激活层，addition指相加；根据ResNet的描述，似乎以上五组都符合，那么2016年ResNet原文是哪一个结构呢？以及其他四组结构也都work么？我们不禁有了这两个疑问，伴随着
复制链接

扫一扫