ImageNet Classification with deep convolutional neural networks

最新推荐文章于 2024-09-16 01:45:00 发布

原创最新推荐文章于 2024-09-16 01:45:00 发布 · 2.4w 阅读

23 ·

CC 4.0 BY-SA版权

菜鸟从零开始学习Deep learning 专栏收录该内容

87 篇文章

订阅专栏

本文详细解析了在ImageNet上训练的CNN网络架构，该网络包含5个卷积层及3个全连接层，共计60百万个参数。文中介绍了网络使用的ReLU非线性激活函数、重叠池化及响应归一化等技术，并阐述了如何通过Dropout来减少过拟合。

分析paper：ImageNet Classification with deep convolutional neural networks

主要是在imagenet上训练一个CNN网络。Caffe的初始化便是这个我网络设置。

因为想更清楚的了解Caffe里面的网络结构设置，所以来研究这篇paper。。。

基本网络构成：

60millon 个参数，650 thousand 个神经元，

包含5个卷积层，其中有几个层后跟着max-pooling层，

有3个全连接层和 1000-way softmax.

用到的两个策略“：

为了加速，使用non-saturating neurons + GPU

为了减少全连接层中的overfitting，利用一种最近发现的规则化方法：dropout

数据库的说明：

Imagenet数据库中的图像大小是不一致的，统一把图像变换为固定大小：256*256。减均值。

（具体来说：统一把图像短的一边，规则化到256，然后剪切出256*256的中间patch）

网络架构及其策略：

8层（5个卷积层+3个全连接层）

ReLU Nonlinearity : instead

with

Training on Multiple GPUs

Local Response Normalization: (the sum over n kernel maps on the same spatial position.)

Overlapping pooling: (in general: summarize the outputs of neighboring groups of neurons in the same kernel map, in thispaper,overlapping pooling)

网络架构图如下：

网络架构解读（Fig.2）：

网络总共有8层（每一层都带有weight）；

前五层是卷积层，后三层是全连接层。最后一个全连接层，输入到一个1000-way softmax，产生一个在1000类别上一个分布。

网络的目标: 最大化multinomial logostic regression objective，

等价于最大化the average across training cases of the log-probability of the correct label under theprediction distribution.

第2 4 5 卷积层的kernels，只与位于同一块GPU上的前一层相连接。

第3个卷积层的kernels，与第2层上的所有的kernel maps相连接。

全连接层中的neurons，与前一层中的所有neurons相连接。

ReLU Nonlinearity : 应用在所有层。

第1 2层采用了response normalization策略。

第1 2 5 层采用了max-pooling策略。

第1层是作用在224*224*3的输入图像上，96个kernels（大小：11*11*3），步长：4 pixels

第2层是 256 kernels（大小：5*5*48）

第3 4 5层没有利用任何intervening的pooling或者normalization

第3层有384kernels（大小：3*3*256），其输入是第二层normalizated and pooled的输出。

第4层是384kernels (大小：3*3*192)

第5层是256 kernel (大小：3*3*192)

全连接层有4096个neurons。

6 条评论

咆哮的大叔 2016.03.16
博主您好，我感觉你那个表格是不是有一点点小问题呢？在原文4.2小节里最后一段中，说是只在全连接层的前两层用到了dropout,最后一层应该没有吧

咆哮的大叔 2016.03.16
那个表格简直太明了了

lcq0905 2015.09.22
请问博主，从卷积层到全连接层，是如何变化的？

zjc8931 2015.01.19
博主你训练出来的accuracy是多少呢？

dosprogram 2014.10.31
博主您好，我刚才的问题非常多，都是关于Figure 2的。烦请博主耐心看完，也希望您能详细解答。本人在此表示衷心的感谢！

dosprogram 2014.10.31
博主您好，还有两个问题。（1）第一层（不含input的network）中的kernel 5*5应该是在该层max pooling之后进行吧？（2）假如（1）是对的，那么，根据“3.4 Overlapping Pooling”中的参数设置“This is what we use throughout our network, with s=2 and z=3.”,第一层经过Max pooling之后的尺寸应该是{（55-3）/2+1}*{（55-3）/2+1},即27*27。值得注意的是，下一层的尺寸也是27*27。我的问题是，如何用kernel 5*5从第一层Max pooling后的尺寸27*27得到第二层的尺寸27*27？与此类似，如何用kernel 3*3从第二层Max pooling后的尺寸{（27-3）/2+1}*{（27-3）/2+1},即13*13，得到第三层的尺寸13*13？如何用kernel 3*3 从第三层的尺寸13*13得到第四层的尺寸13*13？如何用kernel 3*3 从第四层的尺寸13*13得到第五层的尺寸13*13？谢谢。
- hxswkssai回复dosprogram 2015.07.16
  [reply]dosprogram[/reply] 您好您的问题解决了吗？4、5层卷积过后为什么还是13*13大小，不应该是13-3+1=11吗？
- 我是家家回复dosprogram 2015.06.19
  [reply]dosprogram[/reply] Alex CNN 真正的输入图像大小是227*227.。那么以第一层卷积后的大家计算是： (227-11)/4+1=55
- Doral回复dosprogram 2015.06.02
  [reply]dosprogram[/reply] 您好，这个问题您搞懂了么，能否给我们这后来者讲讲，我也是同样的疑问，万分感谢

dosprogram 2014.10.31
博主，还有一个问题：在Figure2 中input层单层的尺寸是224*224，kernel的尺寸是11*11，但是stride却是4 pixels。这样，Kernel窗口滑动时要么不到边界，要么超出边界。请问这个设计如何理解？如何说圆？更进一步，在图中input层给定参数的条件下，又如何得到第一层中的55*55？这一步过程也好奇怪，求解答。谢谢。

dosprogram 2014.10.31
博主您好，请教一个问题：Figure.2注释中的253,440与第一层（不含input的network）中的各种参数是什么关系啊？或者说253,440如何算得的？谢谢。
- lxlclzy1130回复dosprogram 2015.12.21
  [reply]dosprogram[/reply] 感觉论文里面写错了，应该是55*55*96=290400。

tim110629 2014.09.15
博主您好，您那个表格是不是有错呢？按照文章，第一第二层里面应该是data->conv1->norm-〉pool吧
- 我是家家回复tim110629 2014.09.15
  [reply]tim110629[/reply] 我看imagenet_train.prototxt文件是cov->relu->pool->norm顺序。