alexnet训练多久收敛_AlexNet详细解读

最新推荐文章于 2024-10-15 17:29:47 发布

weixin_39623411

最新推荐文章于 2024-10-15 17:29:47 发布

阅读量1k

点赞数

文章标签： alexnet训练多久收敛

本文链接：https://blog.csdn.net/weixin_39623411/article/details/111727455

版权

本文深入解析AlexNet，包括ReLU、双GPU并行、LRN、Overlapping Pooling等关键点，揭示AlexNet如何在ImageNet上实现高效训练与出色性能。实验表明，ReLU比传统激活函数更快收敛，双GPU设计提高运行速度，局部响应归一化与Overlapping Pooling有助于防止过拟合。

摘要由CSDN通过智能技术生成

目前在自学计算机视觉与深度学习方向的论文，今天给大家带来的是很经典的一篇文章：《ImageNet Classification with Deep Convolutional Neural Networks》。纯粹是自学之后，自己的一点知识总结，如果有什么不对的地方欢迎大家指正。AlexNet的篇文章当中，我们可以主要从五个大方面去讲：ReLU，LPN，Overlapping Pooling，总体架构，减少过度拟合。重点介绍总体结构和减少过度拟合。

1. ReLU Nonlinearity

一般神经元的激活函数会选择sigmoid函数或者tanh函数，然而Alex发现在训练时间的梯度衰减方面，这些非线性饱和函数要比非线性非饱和函数慢很多。在AlexNet中用的非线性非饱和函数是f=max(0,x)，即ReLU。实验结果表明，要将深度网络训练至training error rate达到25%的话，ReLU只需5个epochs的迭代，但tanh单元需要35个epochs的迭代，用ReLU比tanh快6倍。

2. 双GPU并行运行

为提高运行速度和提高网络运行规模，作者采用双GPU的设计模式。并且规定GPU只能在特定的层进行通信交流。其实就是每一个GPU负责一半的运算处理。作者的实验数据表示，two-GPU方案会比只用one-GPU跑半个上面大小网络的方案，在准确度上提高了1.7%的top-1和1.2%的top-5。值得注意的是，虽然one-GPU网络规模只有two-GPU的一半，但其实这两个网络其实并非等价的。

3. LRN局部响应归一化

ReLU本来是不需要对输入进行标准化，但本文发现进行局部标准化能提高性能。

其中a代表在feature map中第i个卷积核(x,y)坐标经过了ReLU激活函数的输出，n表示相邻的几个卷积核。N表示这一层总的卷积核数量。k, n, α和β是hyper-parameters，他们的值是在验证集上实验得到的，其中k = 2，n = 5，α = 0.0001，β = 0.75。

这种归一化操作实现了某种形式的横向抑制，这也是受真实神经元的某种行为启发。

卷积核矩阵的排序是随机任意，并且在训练之前就已经决定好顺序。这种LPN形成了一种横向抑制机制。

4. Overlapping Pooling

池层是相同卷积核领域周围神经元的输出。池层被认为是由空间距离s个像素的池单元网格的组成。也可以理解成以大小为步长对前面卷积层的结果进行分块，对块大小为的卷积映射结果做总结，这时有。然而，Alex说还有的情况，也就是带交叠的Pooling，顾名思义这指Pooling单元在总结提取特征的时候，其输入会受到相邻pooling单元的输入影响，也就是提取出来的结果可能是有重复的(对max pooling而言)。而且，实验表示使用带交叠的Pooling的效果比的传统要好，在top-1和top-5上分别提高了0.4%和0.3%，在训练阶段有避免过拟合的作用。

5. 总体结构