深度学习之经典网络-AlexNet详解

最新推荐文章于 2025-03-25 18:03:14 发布

Jul.01

最新推荐文章于 2025-03-25 18:03:14 发布

阅读量6.4k

点赞数 34

文章标签：深度学习网络人工智能 Alexnet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45998729/article/details/143386078

版权

AlexNet 是一种经典的卷积神经网络（CNN）架构，在 2012 年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中表现优异，将 CNN 引入深度学习的新时代。AlexNet 的设计在多方面改进了卷积神经网络的架构，使其能够在大型数据集上有效训练。以下是 AlexNet 的详解：

1. AlexNet 架构概述

AlexNet 有 8 层权重层，包括 5 层卷积层和 3 层全连接层（FC 层），并引入了一些重要的创新，包括激活函数、Dropout 正则化和重叠池化。它通过增加网络的深度和宽度，结合 GPU 加速，极大提升了 CNN 的能力。

2. AlexNet 架构细节

（1）输入层：

输入图像的尺寸为 227x227x3（RGB 3 通道图像）。
AlexNet 采用的是 ImageNet 数据集，其图像分辨率较高，因此需要更大的卷积核和池化核。

（2）卷积层（Conv Layers）：

第一层卷积层（Conv1）：卷积核大小为 11x11，步长为 4，使用 96 个滤波器。输出的特征图尺寸为 55x55x96。经过 ReLU 激活函数处理。
第二层卷积层（Conv2）：卷积核大小为 5x5，步长为 1，使用 256 个滤波器。由于输入图像较大，为减小计算量，每次滑动 1 像素，并采用了最大池化。输出的特征图尺寸为 27x27x256。
第三、四、五层卷积层（Conv3、Conv4、Conv5）：分别采用 3x3 的卷积核，步长为 1，滤波器数分别为 384、384 和 256。

（3）激活函数（ReLU）：

AlexNet 是第一个在每一层卷积层之后使用 ReLU（Rectified Linear Unit）激活函数的网络。与 sigmoid 激活函数不同，ReLU 不会出现梯度消失问题，且能加快训练速度。

（4）池化层（Pooling Layers）：

使用最大池化（Max Pooling），窗口大小为 3x3，步长为 2。
AlexNet 引入了“重叠池化”，即池化窗口的步长小于窗口的大小（3x3 池化窗口和 2 步长），使得池化层能够更好地提取空间信息。

（5）

最低0.47元/天解锁文章

博客等级

码龄5年

63
原创

1096
点赞

976
收藏

1966
粉丝

关注

私信

热门文章

最新评论

解决anaconda prompt找不到的情况
m0_70258264: 为什么显示Python：can't open file '.Lib\_nsis.py'：[error2]No such file or directory
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 是的，您的分析没错。如果内存足够大，不分块确实会更快
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 我再想了一下，一是分块和部分快的延迟是否一样，因为分块和不分块，搬运的数据量是一样的，所以总体的延迟应该差不多，但我感觉分块的总体延迟可能还会更大。二是存储量够不够后面简单的计算了一下：假如QK矩阵的维度是512*4096，那两个矩阵用fp16存储，512×4096x2=4,194,304 字节 = 4 MB，两个矩阵应该是8MB，然后，输出矩阵S的维度是4096*4096，即16MB，所以总共需要22MB。真的超了，所以我理解，如果内存够，那应该不分快，速度还会更快。所以，对于size比较小的模型，不分块应该会更快。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 嗷，我是意思就是，既然存储内存够，那不分块，也可以将中间结果存在SRAM里呀。分块和不分块，总体的搬运时间，我理解应该是一样的。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 首先512×1024x2=1,048,576 字节 = 1 MB,两个矩阵应该是2MB.其次数据存储量的角度来看，计算过程中QK结果需要的存储量确实不大，但是频繁地从HBM（高带宽内存）加载数据会产生较大的延迟和带宽压力。如果可以将中间结果存储在SRAM中，就能减少对HBM的访问。因为Flash Attention通过块式计算的方式，可以将 QK 的结果保存在SRAM中，直接在本地进行softmax归一化和后续的矩阵操作，避免将 QK 回写到HBM，从而减少内存带宽的压力并提升计算效率。关于存储量再举个例子：假如是2048x4096的维度fp16存储，单个矩阵需要16M，矩阵维度增加了4倍，但是存储量是指数级的增加。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。