一、LeNet
论文题目:“Gradient-Based Learning Applied to Document Recognition”
简介:该论文的第一作者是深度学习三巨头之一的Yan LeCun,发表于1998年。这是一篇手写体识别的经典论文,更是CNN的开山之作,它确立了卷积神经网络的基本结构。
阅读重点:Section2 的A、B两部分。两部分的翻译见
LeNet论文的翻译与CNN三大核心思想的解读(只看翻译就好,这里的翻译不太准确,仅供参考)
CNN设计原理的概括可见 LeNet论文阅读:CNN设计原理
LeNet网络结构的分析可见LeNet神经网络
二、AlexNet
论文题目:ImageNet classification with deep convolutional neural networks
简介: ILSVRC-2012 大赛冠军,使得计算机视觉领域开始重视深度学习,掀起了深度学习的热潮。(这篇论文相对较短,比较容易阅读)
要点:使用了很多优化方法(ReLU激活函数的使用,overlapping Pooling的提出)和正则化方法(数据增强,dropout);
在讨论中谈到加深深度和使用预训练可能带来的提高。
论文翻译:可见经典论文翻译汇总
可参考博文:从AlexNet开始(一)
三、VGG
论文题目: Very Deep Convolutional Networks for Large-Scale Image Recognition
简介:2014年ImageNet大赛的亚军(冠军是GoogleNet),论文最主要的贡献是对网络深度做了深入地研究与评估,并提出了两个泛化能力很强的模型VGG16和VGG19(16、19指的weight layer的数量)
要点:
- 小尺寸卷积核(或者说小尺寸感受野)是如何加深网络结构的:
两个3*3的卷积核有着5*5卷积核的感受野,但是使用多层小的卷积核,不光可以使得决策函数更具有辨识性,更重要的是可以大大减少参数的数量,从而减少过拟合。
- 训练网络的tricks(论文3.1):一些优化方法,正则化方法、权重初始化方法(预训练),多尺度图片的处理
- Fusion:将多个网络的softmax层的输出平均,据说通常竞赛中使用。
可参考博文:
VGG 论文笔记(主要是VGG和Alex的比较)
详解VGG16以及启发(启发总结得较好)