【论文阅读】ResNet : Deep Residual Learning for Image Recognition

zyq-lucky

已于 2022-02-15 19:50:00 修改

阅读量1.4k

点赞数

分类专栏：学习分享文章标签：深度学习神经网络机器学习

于 2022-02-15 17:24:17 首次发布

本文链接：https://blog.csdn.net/Fiona_77/article/details/122946872

版权

Deep Residual Learning for Image Recognition

原文链接

Abstract

更深层的神经网络很难训练。ResNet 提出了残差学习的网络框架来简化跟更深层网络的训练。将网络层重新定义为学习基于层输入的残差函数 (residual functions with reference to the layer inputs)，而不是直接学习无参考的函数。论文中提供了全面的证据，表明
1）残差网络更容易优化，而简单堆叠网络层会在深度增加的时候便显出更高的训练误差
2）残差网络很容易通过增加网络深度的来提升准确度，产生更好的结果。

Motivation

深度网络以端到端的多层方式集成了低/中/高级特征和分类器，并且特征的“级别”可以通过堆叠层数（即网络深度）来丰富。由网络深度的重要性产生了一个问题：
学习更好的网络是否只需要简单堆叠更多网络层？
Is learning better networks as easy as stacking more layers?

首先要解决的障碍是：梯度消失 / 爆炸 (vanishing/exploding gradients)，这从一开始就阻碍网络收敛。这主要通过初始化归一化 (normalized initialization) 及中间归一化层 (intermediate normalization layers) 来解决，使得数十层的网络能够开始收敛，实现反向传播的随机梯度下降 (SGD)。

更深层的网络收敛后，网络退化问题 (degradation problem) 暴露了：随着网络深度的增加，准确率变得饱和，然后迅速下降。然而，这种退化不是过度拟合 (overfitting) 造成的，在适当深度的模型上添加更多网络层后，训练误差也更高了！（如下图所示）
在这里插入图片描述

训练集上准确率的退化表明了不是所有的系统都是同样容易优化。考虑一个浅层的结构和它更深层次的对应结构，即基于它增加更多网络层。
存在一个构建深层结构的方法：增加的网络层是恒等映射 (identity mapping) ，其他的网络层直接从训练好的浅层结构中复制。这表明了深层的模型不应该产生比其对应的浅层模型更高的训练误差。也就是说，至少应该是相等的训练误差。但实验表明了，现有的求解方法并不能训练得到和浅层模型效果相当或者更好的结果。

Details

论文引入了深度残差学习框架 (deep residual learning framework) 来解决上

最低0.47元/天解锁文章

zyq-lucky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】ResNet : Deep Residual Learning for Image Recognition

更深层的神经网络很难训练。ResNet 提出了残差学习的网络框架来简化跟更深层网络的训练。将网络层重新定义为学习基于层输入的残差函数 (residual functions with reference to the layer inputs)，而不是直接学习无参考的函数。
复制链接

扫一扫