Identity Mappings in Deep Residual Networks

最新推荐文章于 2022-06-07 22:39:25 发布

hitrenqignji

最新推荐文章于 2022-06-07 22:39:25 发布

阅读量180

点赞数

转载自：https://blog.csdn.net/wspba/article/details/60572886

在上一篇文章中，对MSRA何凯明团队的ResNet进行了介绍（地址），那篇文章中提到了，1202层的ResNet出现了过拟合的问题，有待进一步改进。第二年，何的团队就发表了“Identity Mappings in Deep Residual Networks”这篇文章，分析了ResNet成功的关键因素——residual block背后的算法，并对residual block以及after-addition activation进行改进，通过一系列的ablation experiments验证了，在residual block和after-addition activation上都使用identity mapping（恒等映射）时，能对模型训练产生很好的效果，通过这项改进，也成功的训练出了具有很好效果的ResNet-1001。

在原始的ResNet中，对于每一个residual building block：
这里写图片描述
可以表现为以下形式：

y l = h (x l) + F (x l, W l), x l + 1 = f (y l),

代表ReLU激活函数。

而本文提出了，如果h(x)和f(y)都是恒等映射，即h(xl)=xl，而求和的计算量远远小于求积的计算量。

而对于反向传播，假设损失函数为E，同时这个公式也保证了不会出现梯度消失的现象，因为这里写图片描述不可能为-1。

通过了以上分析，作者设计实验来进行验证。

首先，对于恒等跳跃连接h(xl)=xl的误差衰减最快、误差也最低，而其他形式的都产生了较大的损失和误差。
这里写图片描述

作者认为，捷径连接中的操作 (缩放、门控、1×1的卷积捷径连接引入了更多的参数，本应该比恒等捷径连接具有更加强大的表达能力。但是它的效果并不好，这表明了这些模型退化问题的原因是优化问题，而不是表达能力的问题。

接下来，对于激活函数，作者设计了以下几种形式：
这里写图片描述
实际上只是激活函数（ReLU/BN）的位置有所不同，由于作者希望构建一个恒等的f(yl)=yl也是恒等映射，优化变得更加简单(与原始ResNet相比)。第二，在预激活中使用BN能够提高模型的正则化，从而减少了过拟合的影响。

这篇文章为深层模型的训练提供了很好的方式和思路，也促进了深层模型的进一步发展，接下来我将会把这篇文章的译文提供给大家，也欢迎大家的批评指正。

hitrenqignji

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Identity Mappings in Deep Residual Networks

转载自：https://blog.csdn.net/wspba/article/details/60572886在上一篇文章中，对MSRA何凯明团队的ResNet进行了介绍（地址），那篇文章中提到了，1202层的ResNet出现了过拟合的问题，有待进一步改进。第二年，何的团队就发表了“Identity Mappings in Deep Residual Networks”这篇文章，分析了ResN...
复制链接

扫一扫