ResNet

最新推荐文章于 2024-07-25 08:48:54 发布

好运来2333

最新推荐文章于 2024-07-25 08:48:54 发布

阅读量197

点赞数

分类专栏： Paper

本文链接：https://blog.csdn.net/qq_33254870/article/details/88908157

版权

Paper 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

论文链接：https://arxiv.org/abs/1512.03385

1. 论文背景

（1）为什么神经网络没有发展得越来越深？
因为随着网络深度的增加会出现梯度消失或爆炸的问题，导致无法收敛。但是这一问题可以利用归一化（normalized initialization and intermediate normalization layers）在很大程度上解决。（注：为什么会出现梯度消失与梯度爆炸的问题？ 请参见https://blog.csdn.net/qq_33254870/article/details/88925000）

（2）梯度消失问题解决了，理论上随着网络深度的增加错误率应该越来越低了，但是实验证明结果并不是预想的这样，为什么？
作者在论文中定义这种现象为退化（degradation）问题，产生这种问题的原因是深层网络不容易优化。值得提醒的是，作者明确指出优化困难不是因为梯度消失造成的。另外，深层网络也能够达到competitive accuracy，只是收敛速度慢而已。（对于ResNet是否解决了梯度消失问题观点不一，按照原文的意思我认为没有做到这一点）

2. 论文亮点

（1）网络容易优化，并且随着深度的增加会有更好的结果。
（2） In our case, the shortcut connections simply perform identity mapping, and their outputs are added to the outputs of the stacked layers. Identity short-cut connections add neither extra parameter nor computational complexity. （注：为什么没有增加计算复杂度？）

3. 论文细节

（1）为什么残差函数更容易学习？或者说残差网络更容易优化？
这个问题作者也没在原理上进行说明，只是通过实验进行了verification。

（2）对于恒等映射维度增加的问题
在这里插入图片描述
经过block内第一个layer特征图大小发生了变化，在F(x)+x时使用extra zero entries padded又变回了原来的大小，这就是Fig 3. Right中的虚线部分。

（3）Indentity Shortcuts与Projection Shortcuts，其中Projection Shortcuts有ABC三种方式。
在这里插入图片描述
但这里我有点不理解，既然进行比较应该只有一个自变量，但是ABC都分别混合着 zero-padding shortcuts、projection shortcuts、identity shortcuts，怎么能进行ablation study？

好运来2333

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ResNet

论文链接：1. 论文背景（1）为什么神经网络没有发展得越来越深？因为随着网络深度的增加会出现梯度消失或爆炸的问题，导致无法收敛。但是这一问题可以利用归一化（normalized initialization and intermediate normalization layers）在很大程度上解决。（注：为什么会出现梯度消失与梯度爆炸的问题？）（2）梯度消失问题解决了，理论上随着网络深...
复制链接

扫一扫

专栏目录