AlexNet 论文笔记

最新推荐文章于 2022-01-09 22:08:33 发布

F_AnZzz

最新推荐文章于 2022-01-09 22:08:33 发布

阅读量244

点赞数

分类专栏：深度学习卷积神经网络 deep learning CNN 经典网络文章标签：深度学习卷积神经网络 deep learning cnn Alex Net

本文链接：https://blog.csdn.net/F_AnZzz/article/details/80224558

版权

深度学习同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

deep learning

3 篇文章 0 订阅

订阅专栏

卷积神经网络

1 篇文章 0 订阅

订阅专栏

ImageNet Classification with Deep Convolutional Neural Networks^[1]

这篇文章主要是针对阅读AlexNet论文后的论文笔记，方便自己日后复习。在文中很多是作者较先尝试并且取得了很好效果的技术，而现在已经普遍使用了，如ReLU、overlapping pooling、dropout等等，对于这些技术，在这篇中也不做过多赘述。

网络结构

AlexNet网络结构
模型的主要结构如上图所示，经过考证，作者在文章中应该是写错了，输入的图片大小应为 $227\times227\times3$ 。

Multi GPU training

首先要说明一下，上面这个网络长得奇怪的原因是因为作者使用了两个GPU进行训练，由于在每一层里参数过多，不能把每一层的全部参数都放在同一个GPU上，所以才分出两部分，每一部分的参数放在一个GPU上。同时，从上图中可以看到，在每个GPU上的结果，并不是在所有阶段都会传输给下一层的两个GPU上的。只有Conv Stage 2和Conv Stage 5以及全连接层之后的结果会传输给两个GPU。

Local Response Normalization

虽然ReLU不太需要做输入的normalization来方式防止梯度饱和，但是作者提出了一种Local Response Normalization的方式，仍可以对结果有一定的提升。
假设 $a{^i_{x,y}}$ 表示使用第 $i$ 个kernel在 $(x,y)$ 上计算的结果，并且已经使用了ReLU激活，则normalize之后的结果为

b i x, y = a i x, y / ⎛ ⎝ k + α \sum j = m a x (0, i - n / 2) m i n (N - 1, i + n / 2) (a j x, y) 2) ⎞ ⎠ β

$b{^i_{x,y}}=a{^i_{x,y}}/{\left( k+\alpha \sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a{^j_{x,y}})^2)\right) ^\beta}$

n n $n$ 表示与

i

$i$ 相邻的

n n $n$ 个kernel，

N

$N$ 表示kernel的总数。在公式中

k,n,α,β k , n , α , β $k,n,\alpha,\beta$ 都是超参数，通过在验证集上进行测试之后选定。最终设定

k=2,n=5,α=10−4,β=0.75 k = 2 , n = 5 , α = 10 − 4 , β = 0.75 $k=2,n=5,\alpha=10^{-4},\beta=0.75$ 。

网络结构

网络一共由5层conv和三层fully connection组成。输入的图片大小为 $227\times227\times3$ 。

第一层卷积

输入： $227\times227\times3$
卷积： $96$ 个 $11\times11\times3，stride=4$ 的卷积核（48个kernel/GPU）
激活：ReLU
归一化： $Local$ $Response$ $Normalization$ ^[2]
池化： $3\times3，stride=2$ 的 $max$ $pooling$ ^[3]
输出： $27\times27\times96$ （ $27\times27\times48$ / GPU）
conv输出结果： $\frac{227-11}{4}+1=55$ ，feature map的大小为 $55\times55\times96$ 。
max pooling输出结果： $\frac{55-3}{2}+1=27$ ，feature map的大小为 $27\times27\times96$ 。

第二层卷积

输入： $27\times27\times96$ （ $27\times27\times48$ / GPU）
卷积： $256$ 个 $5\times5\times48，stride=1，padding=2$ 的卷积核（128个kernel/GPU）
激活：ReLU
归一化： $Local$ $Response$ $Normalization$ ^[2]
池化： $3\times3，stride=2$ 的 $max$ $pooling$ ^[3]
输出： $13\times13\times256$ （ $13\times13\times128$ / GPU）
conv输出结果： $\frac{27+2\times2-5}{1}+1=27$ ，feature map的大小为 $27\times27\times256$ 。
max pooling输出结果： $\frac{27-3}{2}+1=13$ ，feature map的大小为 $13\times13\times256$ 。

第三层卷积

输入： $13\times13\times256$ （ $13\times13\times128$ / GPU）
卷积： $384$ 个 $3\times3\times256，stride=1，padding=1$ 的卷积核（192个kernel/GPU）
激活：ReLU
输出： $13\times13\times384$ （ $13\times13\times192$ / GPU）
conv输出结果： $\frac{13+1\times2-3}{1}+1=13$ ，feature map的大小为 $13\times13\times384$ 。

第四层卷积

输入： $13\times13\times192$ / GPU
卷积： $384$ 个 $3\times3\times192，stride=1，padding=1$ 的卷积核（192个kernel/GPU）
激活：ReLU
输出： $13\times13\times384$ （ $13\times13\times192$ / GPU）
conv输出结果： $\frac{13+1\times2-3}{1}+1=13$ ，feature map的大小为 $13\times13\times384$ 。

第五层卷积

输入： $13\times13\times192$ / GPU
卷积： $256$ 个 $3\times3\times192，stride=1，padding=1$ 的卷积核（128个kernel/GPU）
激活：ReLU
池化： $3\times3，stride=2$ 的 $max$ $pooling$ ^[3]
输出： $6\times6\times256$ （ $6\times6\times128$ / GPU）
conv输出结果： $\frac{13+1\times2-3}{1}+1=13$ ，feature map的大小为 $13\times13\times256$ 。
max pooling输出结果： $\frac{13-3}{2}+1=6$ ，feature map的大小为 $6\times6\times256$ 。

第六层全连接

输入： $6\times6\times256$
输出： $4096$ （2048/GPU）
激活：ReLU

第七层全连接

输入： $4096$
输出： $4096$ （2048/GPU）
激活：ReLU

第八层全连接（softmax）

输入： $4096$
输出： $1000$

Reducing Overfitting

为了避免过拟合，文中采取了两种应对方式

data augmentation

在图像处理中一个比较常用的方式就是数据增强。作者在训练AlexNet时使用了两种数据增强的方式。
第一种方式是从原图（ $256\times256$ ）中随机裁切出若干 $227\times227$ 大小的子图以及子图的水平翻转。这种方式使得训练集扩充了2048倍。在测试时，使用5张（四个角以及中心）裁切出来的图片（及他们的翻转）作为测试输入，最后的结果模型为对10个子图预测结果的平均值（average of softmax）。
第二种方式是改变原图中RGB通道的强度^[4]。方法是，先对整个训练集中的RGB的像素值组成的集合做了一个PCA，得到其主成分。对于某张图片，我们在其原有的RGB像素值得基础上加上其主成分的若干倍（该倍数为一个随机变量，从一个 $N(0,0.1^2)$ 的高斯分布中采样得到）。因此，对于一个RGB通道的像素值 $I_{xy}=[I^R_{xy},I^G_{xy},I^B_{xy}]^T$ ，为其加上一个值，得到 $I'_{xy}=[I^R_{xy},I^G_{xy},I^B_{xy}]^T+[p_1,p_2,p_3][\alpha_1\lambda_1,\alpha_2\lambda_2,\alpha_3\lambda_3]^T$ 。其中 $p_i$ 和 $\lambda_i$ 是又三通道的值算出的一个 $3\times3$ 的协方差矩阵的特征向量和特征值。 $\alpha_i$ 是一个随机生成的数，在一次训练中，对于一张图片， $\alpha_i$ 只生成一次（训练过程中再遇到该图片时则重新生成 $\alpha_i$ ）。这样的处理方式在某种程度上降低了光照和颜色和灯光对结果的影响。

dropout

训练时使用dropout技术避免过拟合，在训练时，以0.5的概率将隐藏层的输出置0。在测试时，使用所有的输出（即不进行置零操作），但是需要将输出乘0.5。

训练细节

使用 $SGD$ 训练， $batch\_size=128，momentum=0.9，weight\_decay=0.0005$
权重迭代规则为：
$v_{i+1}:=0.9\cdot v_i - 0.0005\cdot \epsilon \cdot w_i - \epsilon \cdot \left \langle \frac{\partial L}{\partial w}|_{w_i} \right \rangle_{D_i}$
$w_{i+1}:=w_i+v_{i+1}$
其中 $\epsilon$ 是学习率， $\left \langle \frac{\partial L}{\partial w}|_{w_i} \right \rangle_{D_i}$ 是第 $i$ 个batch $D_i$ 对 $w_i$ 偏导的均值。
初始化时，参数从一个 $N(0,0.01^2)$ 的高斯分布中采样得到。在卷积的第二层、第四层、第五层以及全连接层（隐藏层）中初始化bias为 $1$ 。剩下层中bias初始化为 $0$ 。
学习率初始化为 $0.01$ ，并且当val error不降时，将学习率除以10。在120万张图片上使用两个NVIDIA GTX 580 3GB GPU训练了90个cycles，在训练的过程中，学习率总共降了三次。