论文分析与复现-AlexNet：ImageNet Classification with Deep Convolutional Neural Networks

最新推荐文章于 2022-10-01 09:00:00 发布

我是大黄同学呀

最新推荐文章于 2022-10-01 09:00:00 发布

阅读量1.6k

点赞数 3

分类专栏：读点论文 - 基础任务(分类、分割、检测) 文章标签：深度学习

本文链接：https://blog.csdn.net/qq_36560894/article/details/104614840

版权

读点论文 - 基础任务(分类、分割、检测) 专栏收录该内容

27 篇文章 12 订阅

订阅专栏

文章目录

论文阅读方法

三遍论文法

第一遍（摘要+简介+结论）

在这里插入图片描述
通过摘要可以看出，AlexNet是源于一个基于ImagNet数据集的比赛ImageNet LSVRC-2012，它成功地将卷积神经网络应用到了图像分类任务中来，用来GPU训练，Dropout防止过拟合，吊打传统方案。原文中用了一个’record-breaking result’来形容其效果。

第二遍（分段阅读文章其他内容）

在这里插入图片描述

作者采用了ReLU代替饱和非线性模块（Sigmoid），这样既加快了速度，其实也跟符合生物学原理（单边抑制、宽兴奋边界），在一定程度上缓解了梯度消失的问题；
GPU训练就不多说了，那个时候还没有我们现在TF、Torch这种框架，所以作者在GPU的处理上很麻烦。
LRN 局部相应归一化
这个其实也是一个防止过拟合的方法，它计算i节点相邻N个位置上的特征映射，使得响应值比较大的值变得更大，抑制那些反馈少的神经元，增强了模型的泛化能力。这一块其实后期在其他网络中基本上没有被采用，然后我在复现的时候，是参考了别人的代码，有点模糊，希望大家指正。
当步长等于卷积核大小m时，就是传统的局部pooling；当小于卷积核大小时，就叫做overlapping pooling，这篇论文就是overlapping pooling。
模型的结构其实比较明了：五层卷积做特征提取 + 三层全连接做分类器具体可见我表中所列举的，具体模型参数可以看我Pytorch代码实现。
这一段主要是将如何减少过拟合的：
①数据增广（现在都可以通过cv2或者torch中的视觉库轻松实现）
②引入了‘Dropout’层：Dropout就是把隐藏层中神经元的输出设置为0，每个神经元被Dropout概率为r（这是个超参数，在这个网络中r=0.5），这些被‘dropout’掉的神经元不会参与前向计算和后向传播。每次输入一次，这个神经网络就采取的是不一样的神经结构（因为每个神经元被dropout的概率是一样的），但是这些结构都是权值共享的。这样就相当于训练了多个不同的网络模型，提高了泛化能力。
这一段就主要讲了训练的细节了，如何初始化参数权重，用了什么优化器，以及学习率的设置。值得提的是，初始化学习率为0.01，当验证集的error rate不在下降时，就除以10，以找到最合适的学习率。
定性和定量地分析了模型的结果，暴打传统方法。然后需要再模型上需要可解释性，作者可视化了第一个卷积层的内核学习效果：发现网络已经学习到了频率选择、方向选择以及色彩等特征。并且GPU1上的内核学习到的特征是颜色无关的、而GPU2是颜色相关的。
即使偏离中心的物体也是可以被识别的。
关于欧几里得距离那一段我还是有点模糊，我的理解是：两个欧几里得距离很近的图像在网络高层通常会被认为是相似的，但是他的效率比较低，并且很多时候同一类别的物体并不是欧几里得相似的，所以才需要一个合适encoder来将向量压缩成二进制（embedding）