论文阅读004-ResNet-Deep Residual Learning for Image Recognition

最新推荐文章于 2022-12-14 21:12:58 发布

半夜萤火虫

最新推荐文章于 2022-12-14 21:12:58 发布

阅读量290

点赞数

分类专栏：计算机视觉文章标签： ResNet 计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/OTime77/article/details/95059924

版权

计算机视觉专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在这里插入图片描述
首先通过卷积神经网络by吴恩达所简要介绍的ResNet来说明该论文的重点。可以发现有两个重点：
1、提出了Residual block的结构
2、大大地提高了模型的可训练层数

Residual block结构

在这里插入图片描述
从吴恩达课程的PPT中能更清楚看到residual block的具体结构。这个结构有2个好处：
1、（相比普通网络结构）更容易优化
观察上图，如果是一个普通网络结构，输入x经过权重层1+relu1+权重层2+relu2，最后得到H(x)，把权重层1+relu1+权重层2+relu2当作一个整体为H(x)，它起着将x映射到H(x)的作用，我们的网络也就是要训练H(x)这个映射参数。
设F(x)=H(x)-x，F(x)代表H(x)这个映射对x的改变量。
那训练F(x)或H(x)哪一个更容易呢？答案是F(x)。因为假设H(x)是一个恒等变换(identity mapping)，那F(x)不就是等于0，而H(x)=x，这样看肯定是F(x)容易训练。
参考文献 https://www.cnblogs.com/czy4869/p/9052895.html
2、这种结构支持很深的网络，并获得较高的准确度

如何实现residual block？

全连接层情况

输入与输出同等维度

先以权重层+relu+权重层+relu+… 的结构来看，（下列公式为简略，都省去了bias）
在这里插入图片描述

这部分看一下第一张PPT就明白了。

输入与输出不同维度

在这里插入图片描述
Ws代表一个从输入到输出的映射，有两种方法生成Ws.
1、通过zero padding增加维度（不增加参数）
2、通过1x1卷积核改变维度（增加参数）这个1x1卷积核运用还挺广泛的，来自于NIN，有必要进一步理解

训练配置

1、训练图片宽度随机调整到【256， 480】
2、224x224裁剪（中间或随机）
3、训练图片减去训练集像素均值
4、每个卷积层在激活前都使用BN（归一化）
5、参考在这里插入图片描述
进行卷积网络和残差网络的初始化
6、使用SGD，batch size=256
7、初始learning rate=10e-1, 错误率停止则乘10e-1
8、训练最多60x10e4次迭代
9、weight decay=0.0001, momentum=0.9
✘dropout