AlexNet浅析

  2012年由Alex KrizhevskyIlya_Sutskever、他俩的导师Geoffrey_Hinton联合发布的AlexNet以绝对优势在ImageNet挑战赛上一举夺冠,从此掀起了卷积神经网络的热潮。AlexNet论文《Imagenet-classification-with-deep-convolutional-neural-networks》
stanford的CS231n公开课
  论文使用的卷积神经网络(CNNs)将Top-5识别错误率降到了16.4(如果一个算法能输出概率最大的5个类别里包含正确对象就认为识别成功),第二名是26.2%。至此以后涌现了更多识别率超过人类水平的深度神经网络。接下来一起来了解一下这个划时代意义的网络结构

输入

  AlexNet的输入是256x256的RGB彩色图片,也就是说所有训练集和测试集的图片的规格都要是256x256的。
  如果高和宽的像素不是256就需要resize到256。

在这里插入图片描述
  如果输入图片是灰度图,通过复制单个通道将其转换为RGB图像以获得3通道RGB图像,将256×256随机裁剪为227x227大小喂给(feed)AlexNet的第一层

结构

  AlexNet比之前用于计算机视觉的卷积神经网络都要大(比如1998年Yann LeCun的LeNet)有约60,000,000个参数,650,000个神经元,如果在两块GTX 580 3GB GPUs上训练大概要花五到六天。
在这里插入图片描述
  AlexNet有五层卷积层,三层全连接层。
  多个卷积核(或者说是过滤器)可以提取出一张图片的特征,在单个卷积层中,通常有多个尺寸相同的卷积核。比如,AlexNet的第一层卷积层就有96个11x11x3的卷积核,注意到,卷积核的高和宽都一样,深度与通道数一致
  第一两层卷积层后都紧跟有重叠最大池化层,第三四五层卷积层直接相连,第五层后先跟有一层重叠最大池化层,然后紧跟两层全连接层,最后一个有1000个分类的softmax分类器
  在所有的卷积层和全连接后都跟有relu激活函数,第一二层在relu激活后紧跟着一次局部归一化,然后做重叠最大池化(不过归一化在这的效果不太好)

重叠最大池化层

  最大池化层通常用于对张量(tensors)的宽度和高度进行下采样,深度不变。重叠最大池化层在池化时步长(stride)要小于池化窗口的大小,也就是说滑动的时候会有重叠。Alex他们使用的是3x3并且步长为2的池化窗口。与使用大小为2×2且步长为2的非重叠池窗口相比,最大池化的这种重叠性质分别有助于将top-1错误率降低0.4%,top-5错误率降低0.3%。

ReLU(Rectified Linear Units)

  AlexNet另一个对传统的突破就是使用了 r e l u relu relu作为激活函数,相比 s i g m o i d , t a n h sigmoid,tanh sigmoidtanh。在深度卷积神经网络中 r e l u relu relu要比 s i g m o i d , t a n h sigmoid,tanh sigmoidtanh快不少,下图就是在同样的网络结构下使用 r e l u , t a n h relu,tanh relutanh的对比图:
在这里插入图片描述
  在CIFAR-10数据集上测试时,错误率为25%时 r e l u relu relu要比 t a n h tanh tanh快将近6倍。
tanh
在这里插入图片描述
  我们来看看为什么relu要更快: f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)
对于 t a n h tanh tanh,随着 z z z的增长或减小,函数的斜率非常接近零,这会使梯度求解非常缓慢,而 r e l u relu relu随着 z z z的增长,函数斜率恒为1,这有助于优化收敛更快,尽管 z z z为负数时函数值为0,但是神经网络中的大多数神经元通常最终都具有正值。对 s i g m o i d sigmoid sigmoid也是类似道理。

过拟合

什么是过拟合?

  如果样本数量较少,甚至少于模型参数的数量,而网络模型较复杂,以至于容易被训练数据中的噪声影响。就会导致在迭代过程中,神经网络在训练集上表现很好,而在测试集上却很差,也就是泛化能力很差,这就是典型的过拟合(overfitting)现象。下图分别是欠拟合,适合的拟合,过拟合。
在这里插入图片描述

  在AlexNet中使用了以下几种方式减弱过拟合:

数据增强

  对同一张照片我们可以进行多种变化来减轻过拟合,例如我们可以对图像进行不同方式的裁剪,使感兴趣的物体出现在不同位置,从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度等因素来减低模型对色彩的敏感度。常用的方法有:

翻转

  通过简单的左右翻转我们可以将数据集增加两倍。
在这里插入图片描述

随机裁剪

  AlexNet的作者从256×256图像边界内提取了大小为227×227的图片,用作网络的输入,为此数据大小增加了2048倍。
在这里插入图片描述

Dropout

  通过训练约6000万个参数,作者还尝试了其他方法来减少过拟合,这种方法由G.E.Hinton在2012年的另一篇论文中提出。在Dropout中每个神经元以50%的概率随机丢弃,一旦丢弃,那该神经元在前向和后向传播中都不再发挥作用。因此,每个输入都要经过不同的网络体系结构。如下面的动画所示。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

starleeisamyth

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值