AlexNet 是深度学习领域的一个里程碑模型,由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年提出,并在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了突破性成果。它首次展示了深度卷积神经网络(CNN)在图像分类任务中的强大能力,并为后续的深度学习研究奠定了基础。
以下是 AlexNet 的详细网络结构和关键设计特点:
1. AlexNet 的整体架构
AlexNet 包含 8 层(5 层卷积层 + 3 层全连接层),并且引入了许多创新的设计理念。以下是每一层的具体结构:
(1) 输入层
- 输入图像大小为 227×227×3(RGB 图像)。
- 注意:原始论文中提到输入图像大小为 224×224,但由于卷积核大小和步幅的原因,实际输入需要调整为 227×227。
(2) 第一层卷积层(Conv1)
- 卷积核大小:11×11
- 步幅(stride):4
- 输出通道数:96
- 激活函数:ReLU
- 输出大小:(227 - 11) / 4 + 1 = 55 → 55×55×96
(3) 第一层池化层(Pool1)
- 池化类型:最大池化(Max Pooling)
- 池化窗口大小:3×3
- 步幅:2
- 输出大小:(55 - 3) / 2 + 1 = 27 → 27×27×96