【论文】AlexNet


【论文】 Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012.(pdf

【新颖点】

  • 更深的网络结构
  • 使用层叠的卷积层(卷积 → ReLU → 池化)
  • 使用 Dropout 抑制过拟合
  • 使用数据增强(data augmentation)抑制过拟合
  • 使用 ReLU 替代 sigmoid

网络结构

在这里插入图片描述
首先,我们说明一下论文中将网络分为上下两个部分是考虑到对应两块 GPU 用于计算,只有到了特定的网络层之后才需要两块 GPU 进行交互。为了方便理解,我们还是假设使用一块 GPU 进行运算,那么,网络总共有 8 层,其中 5 层卷积(第一和第二卷积层后面连接有 LRN,在此后的网络中有证明 LRN 并非 CNN 中必须包含的层,甚至有些网络加入 LRN 后效果反而降低)、3 层全连接

卷积层 C1: 卷积 → ReLU → 池化 → 归一层,输入为 224 × 224 × 3 224\times224\times3 224×224×3,卷积核的数量为 96 96 96,对应论文中两片 GPU 就分别计算 48 个核,卷积核大小为 11 × 11 × 3 11\times11\times3 11×11×3,步长为 4 4 4,padding 为 0 0 0

如果按照公式 w i d e = ( 224 + 2 × p a d d i n g − k e r n e l _ s i z e ) / s t r i d e + 1 = 54 wide = (224 + 2 \times padding - kernel\_size) / stride + 1 = 54 wide=(224+2×paddingkernel_size)/stride+1=54 计算,我们发现 ( 224 − 11 ) / 4 (224-11)/4 (22411)/4 并不是整除,那么也就说 kernel 在水平移动时的最后一个感受野并非是 11 × 11 11\times11 11×11。不过这个细节在 NetScope 中已经做出了修改,里面的输入被调整为 227 × 227 × 3 227\times227\times3 227×227×3,这样子第一层卷积的结果就是 55 × 55 × 96 55\times55\times96 55×55×96

池化使用 3 × 3 3\times3 3×3 步长为 2 2 2 的池化单元(重叠池化),输出为 ( 55 − 3 ) / 2 + 1 = 27 (55-3)/2+1=27 (553)/2+1=27

局部响应归一化使用的超参数为 k = 2 , n = 5 , α = 1 0 − 4 , β = 0.75 k=2, n=5, \alpha = 10^{-4},\beta = 0.75 k=2,n=5,α=104,β=0.75,输出大小仍为 27 × 27 × 96 27\times27\times96 27×27×96

卷积层 C2: 卷积 → ReLU → 池化 → 归一层,输入为 27 × 27 × 96 27\times27\times96 27×27×96,卷积核的数量为 256 256 256,分两组,卷积核大小为 5 × 5 5\times5 5×5,步长为 1 1 1,padding 为 2 2 2,于是输出为 ( 72 + 2 × 2 − 5 ) / 1 + 1 = 27 , 27 × 27 × 256 (72+2\times2-5)/1+1=27, 27\times27\times256 (72+2×25)/1+1=27,27×27×256

池化使用 3 × 3 3\times3 3×3 步长为 2 2 2 的池化单元,输出为 ( 27 − 3 ) / 2 + 1 = 13 (27-3)/2+1=13 (273)/2+1=13

局部响应归一化使用的超参数为 k = 2 , n = 5 , α = 1 0 − 4 , β = 0.75 k=2,n=5,\alpha=10^{-4},\beta=0.75 k=2,n=5,α=104,β=0.75,输出大小仍为 13 × 13 × 256 13\times13\times256 13×13×256

卷积层 C3: 卷积 → ReLU,输入为 13 × 13 × 256 13\times13\times256 13×13×256,卷积核的数量为 384 384 384,分两组,卷积核大小为 3 × 3 3\times3 3×3,步长为 1 1 1,padding 为 1 1 1,于是输出为 13 × 13 × 384 13\times13\times384 13×13×384

卷积层 C4: 卷积 → ReLU,输入为 13 × 13 × 384 13\times13\times384 13×13×384,卷积核的数量为 384 384 384,分两组,卷积核大小为 3 × 3 3\times3 3×3,步长为 1 1 1,padding 为 1 1 1,于是输出为 13 × 13 × 384 13\times13\times384 13×13×384

卷积层 C5: 卷积 → ReLU → 池化,输入为 13 × 13 × 384 13\times13\times384 13×13×384,卷积核的数量为 256 256 256,分两组,卷积核大小为 3 × 3 3\times3 3×3,步长为 1 1 1,padding 为 1 1 1,于是输出为 13 × 13 × 256 13\times13\times256 13×13×256

池化使用 3 × 3 3\times3 3×3 步长为 2 2 2 的池化单元,输出为 ( 13 − 3 ) / 2 + 1 = 6 (13-3)/2+1=6 (133)/2+1=6

全连接层 F6: (卷积)全连接层 → ReLU → Dropout,输入为 6 × 6 × 256 6\times6\times256 6×6×256『该层有 4096 4096 4096 个卷积核,每个卷积核的大小为 6 × 6 6\times6 6×6,由于卷积核的尺寸刚好与输入特征图的尺寸相同,即卷积核中的每个稀疏只与特征图尺寸的一个像素值相乘,一一对应,因此该层又是全连接层。』 卷积后的输出结果为 4096 × 1 × 1 4096\times1\times1 4096×1×1,即全连接层有 4096 4096 4096 个神经元

全连接层 F7: 全连接层 → ReLU → Dropout,有 4096 4096 4096 个神经元

输出层: 输出 1000 1000 1000 个分类的得分

ReLU 作为激活函数

sigmoid 一个非常大的问题就是梯度饱和,当输入的数值较大或者较小时,其激活记过趋于不变,这样就导致其导数的变化非常的小。尤其在深度网络结构中,反向传播时由于很多很小的 sigmoid 导数累积,最终导致结果趋于 0,权值更新很慢

这对 sigmoid 梯度饱和导致训练收敛慢的问题,AlexNet 引入了 ReLU,ReLU 有以下的好处:

  • 计算开销小,sigmoid 正向传播引入了指数、倒数等预算,而 ReLU 只是线性输出
  • 解决了梯度饱和
  • ReLU 使一部分神经元的输出为 0,这样就造成了网络的稀疏性,减少了参数的相互依存关系

ReLU 如何实现非线性激活?

假设我们从矩阵变化的角度来分析,将输入记成矩阵 A A A,输出记成矩阵 B B B,神经网络所做的变化记为 M M M,那么存在如下的关系 B = M ⋅ A B=M\cdot A B=MA

对于 ReLU 来说,由于其实分段的,0 的部分可以看成是神经元没有激活,不同神经元激活或不激活,所以每次流经神经元所对应的变化矩阵是不同的

也就是说,假如样本 A 1 A_1 A1 A 2 A_2 A2 都流经网络,对应的变化矩阵是 M 1 M_1 M1 M 2 M_2 M2, 对单个训练样本这样的变化是线性的,但是每个训练样本的线性变化是不一样的,即 M 1 M1 M1 M 2 M_2 M2 是不相同。那么,对于整个训练样本空间来说,就是将 非线性变化 M M M 拆为若干个线性变化 M i M_i Mi 的表示,即 M = M 1 ⋅ M 2 ⋯ M n M = M_1\cdot M_2\cdots M_n M=M1M2Mn

数据增强

AlexNet 中对数据做了以下处理:

  • 随机剪裁,对 256 × 256 256\times256 256×256 的图片进行随机剪裁到 227 × 227 227\times227 227×227,然后进行水平翻转
  • 测试的时候,对左上、右上、左下、右下和中间分别做了 5 次剪裁,然后翻转,共 10 次剪裁,之后对结果求平均
  • 对 RGB 空间做 PCA,然后对主成分做了一个 ( 0 , 0.1 ) (0, 0.1) (0,0.1) 的高斯扰动,结果使错误率又下降了 1%

层叠池化

在 LeNet 中池化不是重叠的,即池化窗口的大小和步长是相等的,但是在 AlexNet 中使用的池化却是重叠的,即每次移动的步长小于池化的窗口长度

局部响应归一化

虽然后来的很多网络都没有使用 LRN,甚至直接表示 LRN 对于网络没有任何提升,但是我们这里还是简单的说一下

LRN 加在 ReLU 的后面,能够增加网络的泛化能力。传统的 tanh 和 sigmoid 激活函数的阈值都是有范围的,但是 ReLU 激活函数得到的值域并没有固定的区间,所以需要对 ReLU 得到的结果进行一个归一化处理,也就是 AlexNet 中指出的 Local Response Normalization

局部响应归一化原理是仿造生物学上活跃的神经元对相邻神经元的抑制现象(侧抑制),然后根据论文有如下公式: b ( x , y ) i = a ( x , y ) i ( k + α ∑ j = m a x ( 0 , i − n / 2 ) m i n ( N − 1 , i + n / 2 ) ( a x , y j ) 2 ) β b_{(x, y)}^i=\frac{a^i_{(x, y)}}{(k+\alpha\sum^{min(N-1, i+n/2)}_{j=max(0, i-n/2)}(a_{x, y}^j)^2)^\beta} b(x,y)i=(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yj)2)βa(x,y)i

a ( x , y ) i a^i_{(x, y)} a(x,y)i 代表 ReLU 在第 i i i 个核的 ( x , y ) (x, y) (x,y) 位置的输出, n n n 表示 a ( x , y ) i a^i_{(x, y)} a(x,y)i 的邻居个数, N N N 表示该核的数量, b ( x , y ) i b_{(x, y)}^i b(x,y)i 表示 LRN 的结果

怎么理解这个公式呢?

a ( x , y ) i a^i_{(x, y)} a(x,y)i 表述特征图中的一个位置 [ a , b , c , d ] [a, b, c, d] [a,b,c,d],可以理解成第 a a a 张图片,在通道 d d d 下高度为 b b b,宽度为 c c c 的点

我们称 a ,   n / 2 ,   k ,   α ,   β a,\ n/2,\ k,\ \alpha,\ \beta a, n/2, k, α, β 分别为 input、depth_radius、bias、alpha、beta,其中除了 input 其他都是自定义的,需要特别指出的是公式中 ∑ \sum 求和是沿着通道方向的,即一个点同方向的前 n / 2 n/2 n/2 个通道(最小为第 0 0 0 个通道)和后 n / 2 n/2 n/2 个通道(最大为第 N − 1 N-1 N1 个通道)

请添加图片描述

我们用下面的代码演示一下

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值