AlexNet论文--ImageNet Classification with Deep ConvolutionalNeural Networks

最新推荐文章于 2024-05-26 21:49:12 发布

pepsi_w

最新推荐文章于 2024-05-26 21:49:12 发布

阅读量290

点赞数

分类专栏：经典论文文章标签：深度学习神经网络计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyumei0916/article/details/126596207

版权

经典论文专栏收录该内容

6 篇文章 2 订阅

订阅专栏

原论文链接：https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

文章概述：

构造了一个又大又深的卷积神经网络，该网络具有五个卷积层和3个全连接层，并使用Dropout来降低过拟合。在ImageNet上表现出很好的效果，在LSVRC-2010的测试数据集上的top-1和top-5误差分别为37.5%和17.0%。ILSVRC-2012竞赛中top-5的误差为15.3%，比第二名低了13%。

介绍：

我们在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集上训练了迄今为止最大的卷积神经网络之一，并在这些数据集上取得了很好的结果。该网络中使用了一些新的和不寻常的特点来提高其性能并减少其训练时间，较大的网络规模使得过拟合成为一个重要问题，即使有120万个标记的训练示例，我们也使用了几种技术来防止过拟合。我们的最终网络包含五个卷积层和三个完全连接层，并且我们发现去除任何卷积层（即使每个卷积层包含的模型参数不超过1%）会导致性能下降。（ps：其实这里的深度也没有这么重要，后面发现要是参数调到位即使少一层卷积也能达到该效果）

方法：

网络结构

1 该模型一共分布在两个GPU上，将输入的图片进行横向切开，分别作为两块GPU上的输入。从上图可以看见除了第三层和后面的全连接层外，每一层的输入都是上一层在同一块GPU上的输出。（这里这样分开是因为当时的硬件条件不能支撑在一块GPU上运行该网络）

2 第一和第二卷积层的输出会进行一个局部相应归一化（Response-normalization layers ），对数据进行一些归一化处理。

3 在Response-normalization和第五层卷积层后有一个最大池化层

4 每一个卷积层和全连接层后都有ReLu非线性层

5 前两个全连接层后使用dropout来防止网络的过拟合

重叠最大池化层

相对于传统的no-overlapping pooling，采用Overlapping Pooling不仅可以提升预测精度，同时一定程度上可以减缓过拟合。相比于正常池化（步长s=2，窗口z=2）重叠池化(步长s=2，窗口z=3) 可以减少top-1, top-5分别为0.4% 和0.3%。

局部响应归一化（RNL）

局部响应归一化处理方法类似于生物神经元的横向抑制机制，可以理解为将局部响应最大的再放大，并抑制其他响应较小的(放大局部显著特征,作用还是提高鲁棒性)。

其他细节

超参数：batch_size = 128 ， momentum = 0.9 ，weight decay = 0.0005

权重和偏移的初始化：使用（0，0.01）的高斯分布来对权重进行初始化，第2、4、5和全连接层的偏移初始值为1，其他偏移置为0。

我们已经扩大了我们的网络并训练了更长的时间，但为了匹配人类视觉系统的推断-时间路径，我们还有许多数量级要做。学习率初始值为0.01，当验证误差不再下降时手动将学习率除以10

实验结果：

在ILSVRC-2010年公布的测试数据集上top-1和top-5的结果，可以看出卷积模型比其他模型的误差率都要低。

带*号的是将模型在2011年imagenet秋季发布的数据集上进行预训练后的结果，可以看出使用预训练的模型来对数据集进行迁移学习效果是比直接在该数据集上进行训练的效果好。

通过计算其对 8 个测试图像的前 5 个预测来定性地评估网络所学到的知识，大部分都是合理的。

第一列为测试图像，后面六列是它们在最后一个隐藏层中生成特征向量，与测试图像的特征向量的欧几里得距离最小对于的图片。

总结

大型深度卷积神经网络能够使用纯监督学习在具有高度挑战性的数据集上实现破记录的结果。值得注意的是，如果删除单个卷积层，我们的网络性能会下降。虽然我们扩大了网络并训练了更长的时间，但与人类视觉系统还有很大的差距。

最后作者提出希望在视频序列上使用非常大和深的卷积网络，其中时间结构提供了非常有用的信息，这些在静态图像中不那么明显的信息。

其他

整体上AlexNet参数计算量大，其中使用的一些小Tips为后面经典网络的提出奠定了基础。改论文认为LRN可以很好防止过拟合，但该方法在VGG中被抛弃，原因是该操作基本没有作用而会增加计算量。另外提到的重叠池化层后续也没有继续使用。

但该论文开启了使用监督学习来进行图片分类的方法，在此之前大家的方向都是使用无监督学习。并且该论文中实现了端到端的图片处理（只对原始图片进行了简单的处理，裁剪和变换GRB通道啥的）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pepsi_w CSDN认证博客专家 CSDN认证企业博客

码龄5年

164: 原创

38万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1791: 积分

847: 粉丝

154: 获赞

23: 评论

275: 收藏

私信

关注

热门文章

分类专栏

最新评论

A Span-based Multi-Modal Attention Network for joint entity-relationextraction
十九岁的花季少女: 您好，请问您有这个源码吗，我没有找到，如果有的话可不可以麻烦您发我邮箱一份：1348874416@qq.com。万分感谢
PIQN：Parallel Instance Query Network for Named Entity Recognition
pepsi_w: 这篇论文没有复现过不知道具体情况但是看文件名应该是你需要下载wordvec和预训练模型放在对应的文件夹里面 readme里面没有写吗？
PIQN：Parallel Instance Query Network for Named Entity Recognition
Platycodon_carol: 请问复现时，训练出现了问题。缺少了两个文件： 1.piqn 文件夹下的configs文件夹下的flat.conf文件里的wordvec_path路径的文件 2.piqn 文件夹下的configs文件夹下的flat.conf文件里的model_path路径的文件
Leetcode55&&LeetCode45
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcoed122
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。