论文分析与复现-AlexNet:ImageNet Classification with Deep Convolutional Neural Networks

论文阅读方法

三遍论文法

第一遍(摘要+简介+结论)

在这里插入图片描述
通过摘要可以看出,AlexNet是源于一个基于ImagNet数据集的比赛ImageNet LSVRC-2012,它成功地将卷积神经网络应用到了图像分类任务中来,用来GPU训练,Dropout防止过拟合,吊打传统方案。原文中用了一个’record-breaking result’来形容其效果。

第二遍(分段阅读文章其他内容)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 作者采用了ReLU代替饱和非线性模块(Sigmoid),这样既加快了速度,其实也跟符合生物学原理(单边抑制、宽兴奋边界),在一定程度上缓解了梯度消失的问题;
  • GPU训练就不多说了,那个时候还没有我们现在TF、Torch这种框架,所以作者在GPU的处理上很麻烦。
  • LRN 局部相应归一化
    这个其实也是一个防止过拟合的方法,它计算i节点相邻N个位置上的特征映射,使得响应值比较大的值变得更大,抑制那些反馈少的神经元,增强了模型的泛化能力。这一块其实后期在其他网络中基本上没有被采用,然后我在复现的时候,是参考了别人的代码,有点模糊,希望大家指正。
  • 当步长等于卷积核大小m时,就是传统的局部pooling;当小于卷积核大小时,就叫做overlapping pooling,这篇论文就是overlapping pooling。
  • 模型的结构其实比较明了:五层卷积做特征提取 + 三层全连接做分类器 具体可见我表中所列举的,具体模型参数可以看我Pytorch代码实现。
    在这里插入图片描述
    在这里插入图片描述
  • 这一段主要是将如何减少过拟合的:
    ①数据增广(现在都可以通过cv2或者torch中的视觉库轻松实现)
    ②引入了‘Dropout’层:Dropout就是把隐藏层中神经元的输出设置为0,每个神经元被Dropout概率为r(这是个超参数,在这个网络中r=0.5),这些被‘dropout’掉的神经元不会参与前向计算和后向传播。每次输入一次,这个神经网络就采取的是不一样的神经结构(因为每个神经元被dropout的概率是一样的),但是这些结构都是权值共享的。这样就相当于训练了多个不同的网络模型,提高了泛化能力。
    在这里插入图片描述
  • 这一段就主要讲了训练的细节了,如何初始化参数权重,用了什么优化器,以及学习率的设置。值得提的是,初始化学习率为0.01,当验证集的error rate不在下降时,就除以10,以找到最合适的学习率。
    在这里插入图片描述
    在这里插入图片描述
  • 定性和定量地分析了模型的结果,暴打传统方法。然后需要再模型上需要可解释性,作者可视化了第一个卷积层的内核学习效果:发现网络已经学习到了频率选择、方向选择以及色彩等特征。并且GPU1上的内核学习到的特征是颜色无关的、而GPU2是颜色相关的。
  • 即使偏离中心的物体也是可以被识别的。
  • 关于欧几里得距离那一段我还是有点模糊,我的理解是:两个欧几里得距离很近的图像在网络高层通常会被认为是相似的,但是他的效率比较低,并且很多时候同一类别的物体并不是欧几里得相似的,所以才需要一个合适encoder来将向量压缩成二进制(embedding)

第三遍:

其实这篇文章读下来,大体是很清晰的,作为图像领域卷积神经网络的奠基之作,还是很有必要一读。但是神经网络模型相比于传统的视觉方法,缺乏可解释性,而且这个模型用的卷积核比较大,而且隐藏层数也比较浅,所谓前人挖坑,后人填坑,开山之作之后,视觉领域也正式迎来了深度学习的统治时代。

代码复现:

GitHub地址

欢迎大家交流指正,谢谢。

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值