【深度学习进阶】CNN-AlexNet

原创已于 2025-01-10 10:05:14 修改 · 5.9k 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #cnn #人工智能 #神经网络 #机器学习

于 2024-12-13 06:30:00 首次发布

深度学习专栏收录该内容

21 篇文章

订阅专栏

文章目录

介绍
网络亮点
- 过拟合
详解

介绍

AlexNet 是一种深度卷积神经网络（CNN），由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton 在 2012 年提出，并在当年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中取得了第一名的成绩。这一成就标志着深度学习在计算机视觉领域的重大突破，极大地推动了该领域的发展。

架构特点

输入尺寸：AlexNet 接受 224x224x3（宽 x 高 x RGB 通道数）大小的图像作为输入。
卷积层：
- AlexNet 包含 5 个卷积层，其中前三个卷积层后面接有最大池化层和局部响应归一化层（LRN）。后两个卷积层则直接连接到全连接层。
- 第一层使用较大的卷积核（11x11），步长为 4，以捕捉大范围的空间信息；后续几层逐渐减小卷积核大小（5x5 和 3x3），以便提取更细粒度的特征。
- 每个卷积层都应用了 ReLU 激活函数，这有助于加速训练过程并缓解梯度消失问题。
池化层：
- 最大池化层用于降低特征图的空间维度，减少参数数量并控制过拟合。
局部响应归一化（LRN）：
- LRN 对局部神经元活动进行归一化处理，增强了模型的泛化能力。
全连接层：
- AlexNet 有两个大的全连接层，每个包含 4096 个神经元。这些层负责整合前面所有层提取出的特征，并映射到最终的输出类别。
- 全连接层之后通常会有一个 Dropout 层，用来随机丢弃一部分神经元，防止过拟合。
输出层：
- 输出层通过 Softmax 函数将预测值转换为概率分布，对应于 ImageNet 数据集中的 1000 类别标签。

创新点与贡献

GPU 加速：AlexNet 是最早利用 GPU 来加速训练过程的网络之一，显著缩短了训练时间。
ReLU 激活函数：引入 ReLU 代替传统的 Sigmoid 或 Tanh 激活函数，加快了训练速度并提高了性能。
Dropout 技术：通过在网络中添加 Dropout 层来减少过拟合现象，提升了模型的泛化能力。
数据增强：为了增加训练样本的多样性，AlexNet 使用了镜像翻转和裁剪等方法对原始图像进行了扩充。

影响与意义

AlexNet 的成功不仅在于它在 ILSVRC 上取得的优异成绩，更重要的是它证明了深度卷积神经网络在大规模图像分类任务上的巨大潜力。自那时以来，许多新的 CNN 架构如 VGGNet、GoogLeNet、ResNet 等相继出现，它们在不同方面改进和发展了 AlexNet 的思想和技术，共同推动了深度学习和计算机视觉领域的快速发展。

总之，AlexNet 作为一个里程碑式的模型，开启了现代深度学习研究的新纪元，其设计理念和技术创新至今仍然影响着众多研究工作。

ISLVRC 2012