论文精读ResNet: Deep Residual Learning for Image Recognition

最新推荐文章于 2024-01-17 16:09:03 发布

EEPI

最新推荐文章于 2024-01-17 16:09:03 发布

阅读量186

点赞数

分类专栏：自动驾驶大模型领域的论文精读笔记文章标签：深度学习大模型

本文链接：https://blog.csdn.net/eepii/article/details/133219912

版权

自动驾驶大模型领域的论文精读笔记专栏收录该内容

21 篇文章 0 订阅

订阅专栏

1 基础背景

论文链接：https://arxiv.org/abs/1512.03385
Github链接：https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py
知乎讲解：ResNet论文笔记及代码剖析

2 Motivation

对于深度神经网络来说，深度对于模型性能至关重要。网络层数越深：
（1）越容易导致梯度消失或梯度爆炸 gradient vanishing/exploding；
（2）越容易出现性能恶化degradation：准确率达到峰值后迅速下降。

3 解决方法

把输入直接加到输出上，即shortcut connection。残差网络的意思是输出-输入的那部分网络模型。
对于神经网络来说，它对于相同映射identity mapping之外的扰动更容易学习，而不是identity mapping本身。相同映射就是【输入=输出】。
如果输入输出维度不同，可以采用zero-padding补零/projection映射，将其维度改变。

4 结论

shortcut connection没有引入新的参数，也没有额外增加计算复杂度。
在ImageNet中，不shortcut connection的网络（论文中叫plain network）34层的训练误差高于18层的，而残差版的34层低于18层。
验证误差同样很小，说明泛化能力较强。
残差网络初期收敛更快，最终收敛效果更好。
对于层数非常深（>50）的网络，可以采用瓶颈bottleneck模型，使用卷积将其维度先降低，提取关键特征，再升高，这样可以有效降低算力需求，由此可以诞生101层，152层的网络，其算力需求仍低于VGG。（具体为什么是101/152，作者并没有说明，李沐分析可能是调试调出来）
projection引入了新的参数，不适用于瓶颈模型，使用identity mapping更好。

5 知识补充

top1 error

将模型输出中最大概率的结果作为最终分类结果，计算得到的错误率，该指标衡量了模型的准确程度，同理还有top5 error；

EEPI

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文精读ResNet: Deep Residual Learning for Image Recognition

论文链接：https://arxiv.org/abs/1512.03385Github链接：https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py知乎讲解：ResNet论文笔记及代码剖析。
复制链接

扫一扫

专栏目录