ResNet论文笔记

KC1B

于 2022-10-15 17:38:52 发布

阅读量294

点赞数 1

分类专栏：论文笔记文章标签：论文阅读深度学习机器学习

本文链接：https://blog.csdn.net/qq_52038588/article/details/127338055

版权

论文笔记专栏收录该内容

35 篇文章 0 订阅

订阅专栏

ResNet 论文笔记

Deep Residual Learning for Image Recognition

在这里插入图片描述

论文第一页就放了这张图，左边是训练误差，右边是测试误差，CIFAR-10数据集，不加残差连接，20层和56层的网络。很明显，不加残差连接的情况下，越深的网络训练误差和测试误差都更高。

部分要点：

1.引入了残差设计，能训练更深的网络，并且模型的复杂度不会显著上升

2.残差优化更容易，随着深度增加准确率会上升

3.没用dropout

Introduciton部分：

作者在第一段强调了深度的重要性，越深学到的语义信息更多。

在第二段提出问题：*是不是仅仅堆叠更多层就能学好？*网络的加深会出现梯度消失/爆炸的问题，用Xavier initialization（？）和归一化层（？）可以避免，但仅限浅层。

网络变深的时候性能会下降，准确度饱和后会迅速下降。而这不是由过拟合造成的（过拟合训练误差小，测试误差大，但这种情况两个误差都很大），层数变高训练误差也会变高。训练误差的下降表明并不是所有网络都是很容易优化的。

接下来很重要：

我们设想一个浅层网络和它的深层的版本，构建深层版本有一种解决方案：多出来的层的权重都一一对应（identity mapping，输入x输出也是x），原来的层保持不变。这么构造的深层网络本来训的练误差应该不会比浅层的高，但是实验表明sgd找不到更好的解（或者说，在有限时间内找不到）。

resnet论文提出残差连接来解决退化（性能下降）问题。(显示构造identity mapping)

在这里插入图片描述

H(x)是要求解的映射(几个堆叠的层要去拟合的)，x是浅层给的feature，那么我们可以将这个问题转换为求解残差映射函数，也就是F(x)=H(x)-x，F(x)称为resnet funciton。x是一个跳跃连接，相当于执行identity mapping（恒等映射），没有添加额外参数，不会增加计算复杂度。

那么求解的问题变成了H(x)=F(x)+x。要让输入等于输出的话，F(x)=0就行了。原始的hx需要多个非线性层拟合，实际很难实现。残差网络如果训练到了最优，残差更容易变成0，即实现了恒等映射。残差函数F同样适合卷积层。

在这里插入图片描述

上图是VGG19,34层普通深层网络和加了残差的34层网络的架构。

如果输入和输出维度不同时是无法进行相加操作的（即F(x)和x的维度大小不一样）

当输入维度和输出相等时可以直接使用跳跃连接，但当F（x）维度变大时需要对x进行升维（文章中是说线性投影），才能进行计算。方法有两种：

1.0填充。（这个操作不会增加额外的参数）

2.采用1*1卷积。

Implementation

图片随着短边重新缩放，短边在[256,480]区间随机采样。从一个图（或其水平反转后的图）上随机裁剪224*224，并减去每个像素均值。使用色彩增强（提高对比度？），在每次卷积之后和激活函数（？）之前使用batch normalization (BN)。初始化权重。mini-batchsize=256，学习率0.1，当错误率停滞时除以10，iterations=600000。权重衰减0.0001，momentum=0.9。