秃姐学AI系列之：AlexNet + 代码实现

AlexNet赢得了2012年ImageNet竞赛
更深更大的LeNet：在架构上其实没太根本的区别
主要改进：
- 丢弃法（Dropout）：做模型的控制，因为模型更大了，用丢弃法来做模型的正则
- ReLU：跟Sigmoid比，ReLU梯度更大，而且在零点的一阶导更好一些，可以支撑更深的模型
- MaxPooling：使得输出值比较大，梯度比较大，训练会更容易一些
计算机视觉方法论的改变：LeNet人们还认为它只是个机器学习的模型，而AlexNet增大了几十倍，由量变引起了质变，把人们之前对于计算机视觉的观念改变了。如下图所示：

在AlexNet之前，人们的兴趣和重点都放在人工特征提取这块，来研究如何把人对问题的理解转换为标准的机器学习的数值；

而AlexNet除了最后一层可以理解成Softmax回归来计算概率，之前的所有层都可以理解成模型在自己学习特征，每一个CNN的通道都在独立的学习特征，最后使得Softmax可以很好的进行分类。这样做的好处是：

构造CNN相对来说很简单，不需要了解太多计算机视觉的专业知识
更容易跨到不同的问题或学科上面去解决

网络架构

在AlexNet的第一层，卷积窗口的形状是11×11，96的通道数，步长为4

由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上，因此，需要一个更大的卷积窗口来捕获目标。
从6——>96的通道数，表明图片尺寸变大了，包含了更多的通道数，想在第一层就尝试识别出来
步长为4是受当时算力限制，如果步长不为4的话后面计算量会变得太大

第二层中的卷积窗口形状被缩减为 5×5，填充 2，输出通道 256；然后是 3×3，填充 1。

填充（pad）为 2 即使得输入输出尺寸一样
通道数AlexNet直接拉到 256，比LeNet的 16 翻了十几倍：同样 AlexNet 还是希望能识别更多的模式在这一层，所以使用了更大的输出通道
AlexNet 比 LeNet 多了三个连续的 384 通道的卷积层，最后做一次池化层

此外，在第一层、第二层和第五层卷积层之后，加入窗口形状为 3×3、步幅为 2 的最大汇聚 MaxPooling 层。

LeNet池化层是2 x 2且步长也为2，即不重叠的；
而AlexNet是3 x 3步长为2，会存在一定程度的重叠；
相同的是两个模型都选择在池化层将数据量减半（2步长）

在最后一个卷积层后有两个全连接层，分别有4096个输出。这两个巨大的全连接层拥有将近1GB的模型参数。

因为 AlexNet 所用的数据集 ImageNet 有1000类的输出类别，所以需要一个巨大的全连接来支撑

由于早期GPU显存有限，原版的AlexNet采用了双数据流设计，使得每个GPU只负责存储和计算模型的一半参数。幸运的是，现在GPU显存相对充裕，所以现在很少需要跨GPU分解模型。

复杂度

参数个数：AlexNet 比 LeNet 多了10倍

但是考虑到 ImageNet 数据集比 MNIST大了不止10倍的情况下这个参数量不算大了

FLOP（前向传播需要的浮点计算数）： AlexNet 比 LeNet 贵了250倍

这个是真的区别很大！！虽然参数只多了 10 倍，但是因为卷积神经网络所有参数都是乘在一起的，所以导致最后计算量根本不在一个层级上面

虽然但是，这个AlexNet在现在看已经是一个很便宜的神经网络了哈哈哈

总结

AlexNet的架构与LeNet相似，但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。
今天，AlexNet已经被更有效的架构所超越，但它是从浅层网络到深层网络的关键一步。
尽管AlexNet的代码只比LeNet多出几行，但学术界花了很多年才接受深度学习这一概念，并应用其出色的实验结果。这也是由于缺乏有效的计算工具。
Dropout、ReLU 和数据增强是提升计算机视觉任务性能的其他关键步骤。

代码实现 AlexNet

import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
    # 这里使用一个11*11的更大窗口来捕捉对象。
    # 同时，步幅为4，以减少输出的高度和宽度。
    # 另外，输出通道的数目远大于LeNet
    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数
    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    # 除了最后的卷积层，输出通道的数量进一步增加。
    # 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度
    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2),  # 到此为止是所有的卷积单元（4D->4D）
    nn.Flatten(),
    # 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
    nn.Linear(6400, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),  # 丢弃概率0.5，即有一半的概率把输出置0
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000
    nn.Linear(4096, 10))

上面代码最后一层卷积输出应该是384，但由于改了这个后面线性层的输入也要改所以懒得算了.....SORRY

因为这段代码跑的是Fashion-MNIST数据集，所以最后一个mlp输出的类别是10，如果跑ImageNet的话应该是1000

构造一个单通道数据，来观察每一层输出的形状

X = torch.randn(1, 1, 224, 224)
for layer in net:
    X=layer(X)
    print(layer.__class__.__name__,'output shape:\t',X.shape)

QA

1、ImageNet是否已经成为历史了？

绝对没有！！虽然是一个十年前的数据集，但是它还是绝大多数论文来证明自己效果好的数据集。毕竟当时构造的时候也是花了差不多100万美金...当时都是手动标的数据

2、为什么2000年的时候神经网络会被核方法代替

①当时的硬件，深的学不动，浅的效果一般

②核方法理论更漂亮，学术界还是更喜欢理论一些

3、其他学习资料里面，AlexNet 会提到里面的 Local Response Normalization 没太懂

没啥用的东西，其实一个网络模型提出，不会去深究里面到底是什么模块起作用了，就是觉得哦好用，发布之后后面的人会一个个模块去研究尝试什么东西是好用的，这个LRM模块后面实验做下来发现没啥用，不懂也没关系

4、为什么AlexNet最后要有两个相同的全连接Dense（4096）？一个行吗？

密集层（Dense Layer）是深度学习中常用的一种神经网络层，也被称为全连接层（Fully Connected Layer）或线性层（Linear Layer）。

还真不行！你可以自己试一试。效果会差，因为前面的卷积把特征抽的不够好不够深，所以需要两个巨大的全连接层来稳固。

5、为什么 LeNet 不属于深度卷积神经网络

那帮搞深度学习的人，最厉害的不是调参什么的，其实最厉害的是包装——取名大师。老学术了... deep 就是它们想出来的一个很适合市场的词。神经网络在 Attention 和 Transformer 之前没有什么很新的东西。