目录
一、论文下载地址
Google Inception Net 又被称为GoogLeNet 之所以这个名词,论文里面有提到“ This name is an homage to Yann LeCuns pioneering LeNet 5 network”,原来是想LeNet致敬。inception net一共有四个版本,分别是v1到v4,下面是四个版本的论文。
[v1] Going Deeper withConvolutions, 6.67% test error,2014.9
论文地址:http://arxiv.org/abs/1409.4842
[v2] Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift, 4.8% test error,2015.2
论文地址:http://arxiv.org/abs/1502.03167
[v3] Rethinking theInception Architecture for Computer Vision, 3.5%test error,2015.12
论文地址:http://arxiv.org/abs/1512.00567
[v4] Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning, 3.08% test error,2016.2
论文地址:http://arxiv.org/abs/1602.07261
二、Inception V1
Inception V1的最大特点是控制了计算量和参数量的同时获得了非常好的分类结果——top5错误率6.67%。论文里面提到了目前(当时是2014年)使用旧的方式一昧地增大网络的层数会出两个不能避免的问题:
1.容易造成过拟合,尤其是面对一些数据样本有限的数据集
2.计算资源的消耗,成本大
而解决这两个问题的根本方法是最终从完全连接到稀疏连接的架构,甚至在卷积内部,也就是后面会提到inception module。论文里引用了一篇Provable bounds for learning some deep representations所说的,如果数据集的概率分布可由大的,非常稀疏的深度神经网络表示,则可以通过分析激活的相关统计数据逐层构建最优网络拓扑。论文里面说这是基于Hebbian principle的原则,这个原则是说一起发射的神经元会连在一起“neurons that fire together, wire together”。一个很通俗的现象,学习生物的时候有这个实验:先摇铃铛,之后给一只狗喂食,久而久之,狗听到铃铛就会口水连连。这也就是狗的“听到”铃铛的神经元与“控制”流口水的神经元之间的链接被加强了,而Hebbian principle的精确表达就是如果两个神经元常常同时产生动作电位,或者说同时激动(fire),这两个神经元之间的连接就会变强,反之则变弱。
Inception V1有22层深。它之所以能够取得好的结果除了模型层数更深,表达能力更强之外还因为两点:
1.用全局平均池化层代替了最后的全连接层
全连接层几乎占据了alexnet和VGGnet中大部分的参数量,而且会引起过拟合,去除全连接层之后模型可以训练的更快且避免了过拟合的情况。