【图像分类】AlexNet--深度学习时代来临

1.AlexNet介绍:

近几年深度学习的爆发实际上是从AlexNet开始的。说到AlexNet不得不提一下image net数据集,从2005年以来机器学习蓬勃发展,人脸识别,图像分类等任务得到了广泛的关注。image net数据集的诞生,为图像分类识别等任务提供了一个统一的评估平台,为此类算法的迭代提供了依据。AlexNet的出现大幅度刷新了image net图像分类得分,从此深度学习在图像领域名声大噪,各类论文出现井喷。

 

2.AlexNet网络结构:

AlexNet网络结构如下图:

第一层:卷积层。输入图像大小为224*224*3,卷积核数量为96个,卷积核大小为11*11*3.注意这里输入图像和mnist不同,mnist是单通道图像,但是image net是多通道输入,所以卷积核针对多通道进行了相应的修改,变为了11*11*3.这里卷积核的size是比LeNet要大的,我猜是作者想尽可能的保证输入图像特征抽取的完整,但是11*11的卷积后面被证明过大,导致了较大的计算耗时,并且对预测精度提高并不明显(这是为什么?https://www.zhihu.com/question/38098038 这里分析了为啥小的卷积核更有效)。卷积结束之后,加了一层Local Response Normalization。但是这里有个问题,这个函数后面大家一般加在池化之后,在AlexNet里面却加在了池化之前。这个函数有什么作用呢,其实也是来自生物神经学,归一化的目的就是为了抑制,这个方法增强了AlexNet的范化能力。这个方法的使用最好是搭配激活函数relu,其他激活函数可能并没有这么明显的效果。当然,后面也有人争议这个方法其实并没有什么卵用(Very Deep Convolutional Networks for Large-Scale Image Recognition)。在AlexNet中作者提出了max pooling,选择池化像素的最大值作为输出。最大池化还是平均池化,这个是一个问题。目前主流认为最大池化比平均池化要有优势一点,但是选用什么样的池化方式其实和你的数据集有关系(https://www.quora.com/What-is-the-benefit-of-using-average-pooling-rather-than-max-poolinghttps://blog.csdn.net/u012193416/article/details/79432668

第二层:卷积核为5*5*48*256,卷积size比之前减小了,但是卷积核数量却变多了。目前一般cnn的套路好像都是越到后面卷积核数量越大。其余结构和第一层基本不变。

第三层:卷积核为3*3*256*384,卷积size继续变小。第三层没有LRN和pool(这是为啥?)

第四层:卷积核为3*3*384*384,没有LRN与pool

第五层:卷积核为3*3*384*256,没有LRN,直接进行max pooling

后面第六,七,八层全为全链接网络。全链接网络中使用了dropout,防止网络的过拟合。

AlexNet的主要贡献:

1.数据增强。主要针对图像数据,比如进行随机旋转,随机剪裁等增加图像样本,同时提高模型范化性能。

2.Relu,解决了梯度消失的问题,为更深的网络结构打下基础。

3.dropout,一个比较经典的对抗过拟合的方法,在alexnet里面首次提出。

4.LRN,局部响应归一化。

5.多gpu训练。alexnet采用了两块gpu进行模型分布式训练,提高了训练速度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值