收藏!深度学习必读10篇经典算法论文总结!

本文总结了深度学习在图像分类领域的10篇经典论文,包括LeNet、AlexNet、VGG、GoogLeNet、ResNet等,阐述了这些网络如何推动了深度学习的发展,如深度、批处理规范化、残差学习等关键概念。通过对这些论文的阅读,读者可以了解深度学习的历史和重要进展。
摘要由CSDN通过智能技术生成

朋友们! 如需转载请标明出处:https://blog.csdn.net/jxessoft

前言

计算机视觉是将图像和视频转换成机器可理解的信号的主题。利用这些信号,程序员可以基于这种高级理解来进一步控制机器的行为。在许多计算机视觉任务中,图像分类是最基本的任务之一。它不仅可以用于许多实际产品中,例如Google Photo的标签和AI内容审核,而且还为许多更高级的视觉任务(例如物体检测和视频理解)打开了一扇门。自从深度学习的突破以来,由于该领域的快速变化,初学者经常发现它太笨拙,无法学习。与典型的软件工程学科不同,没有很多关于使用DCNN进行图像分类的书籍,而了解该领域的最佳方法是阅读学术论文。但是要读什么论文?我从哪说起呢?在本文中,我将介绍10篇最佳论文供初学者阅读。通过这些论文,我们可以看到该领域是如何发展的,以及研究人员如何根据以前的研究成果提出新的想法。但是,即使您已经在此领域工作了一段时间,对您进行大范围整理仍然很有帮助。

1998年:LeNet

梯度学习在于文档识别中的应用
在这里插入图片描述
摘自“ 基于梯度的学习应用于文档识别”
LeNet于1998年推出,为使用卷积神经网络进行未来图像分类研究奠定了基础。许多经典的CNN技术(例如池化层,完全连接的层,填充和激活层)用于提取特征并进行分类。借助均方误差损失功能和20个训练周期,该网络在MNIST测试集上可以达到99.05%的精度。即使经过20年,仍然有许多最先进的分类网络总体上遵循这种模式。

2012年:AlexNet

深度卷积神经网络的ImageNet分类
在这里插入图片描述
摘自“ 具有深度卷积神经网络的ImageNet分类
尽管LeNet取得了不错的成绩并显示了CNN的潜力,但由于计算能力和数据量有限,该领域的发展停滞了十年。看起来CNN只能解决一些简单的任务,例如数字识别,但是对于更复杂的特征(如人脸和物体),带有SVM分类器的HarrCascade或SIFT特征提取器是更可取的方法。

但是,在2012年ImageNet大规模视觉识别挑战赛中,Alex Krizhevsky提出了基于CNN的解决方案来应对这一挑战,并将ImageNet测试装置的top-5准确性从73.8%大幅提高到84.7%。他们的方法继承了LeNet的多层CNN想法,但是大大增加了CNN的大小。从上图可以看到,与LeNet的32x32相比,现在的输入为224x224,与LeNet的6相比,许多卷积内核具有192个通道。尽管设计变化不大,但参数变化了数百次,但网络的捕获和表示复杂特征的能力也提高了数百倍。为了进行大型模型训练,Alex使用了两个具有3GB RAM的GTX 580 GPU,这开创了GPU训练的先河。同样,使用ReLU非线性也有助于降低计算成本。

除了为网络带来更多参数外,它还通过使用 Dropout层探讨了大型网络带来的过拟合问题 。其局部响应归一化方法此后并没有获得太大的普及,但是启​​发了其他重要的归一化技术(例如BatchNorm)来解决梯度饱和问题。综上所述,AlexNet定义了未来十年的实际分类网络框架: 卷积,ReLu非线性激活,MaxPooling和Dense层的组合。

2014年:VGG

超深度卷积网络用于大规模图像识别
在这里插入图片描述
来自Quora“ https://www.quora.com/What-is-the-VGG-neural-network
在使用CNN进行视觉识别方面取得了巨大成功,整个研究界都大吃一惊,所有人都开始研究为什么这种神经网络能够如此出色地工作。例如,在2013年发表的“可视化和理解卷积网络”中,Matthew Zeiler讨论了CNN如何获取特征并可视化中间表示。突然之间,每个人都开始意识到CNN自2014年以来就是计算机视觉的未来。在所有直接关注者中,Visual Geometry Group的VGG网络是最吸引眼球的网络。在ImageNet测试仪上,它的top-5准确度达到93.2%,top-1准确度达到了76.3%。

遵循AlexNet的设计,VGG网络有两个主要更新: 1)VGG不仅使用了像AlexNet这样的更广泛的网络,而且使用了更深的网络。VGG-19具有19个卷积层,而AlexNet中只有5个。2)VGG还展示了一些小的3x3卷积滤波器可以代替AlexNet的单个7x7甚至11x11滤波器,在降低计算成本的同时实现更好的性能。 由于这种优雅的设计,VGG也成为了其他计算机视觉任务中许多开拓性网络的骨干网络,例如用于语义分割的FCN和用于对象检测的Faster R-CNN。

随着网络的深入,从多层反向传播中梯度消失成为一个更大的问题。为了解决这个问题,VGG还讨论了预训练和权重初始化的重要性。这个问题限制了研究人员继续添加更多的层,否则,网络将很难融合。但是两年后,我们将为此找到更好的解决方案。

2014年:GoogLeNet

更深卷积
在这里插入图片描述
摘自“ Going Deeper with Convolutions

VGG具有漂亮的外观和易于理解的结构,但在ImageNet 2014竞赛的所有决赛入围者中表现都不佳。GoogLeNet(

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值