[caffe]深度学习之图像分类模型googlenet[inception v1]解读

最新推荐文章于 2022-10-02 22:09:17 发布

guojingjuan

最新推荐文章于 2022-10-02 22:09:17 发布

阅读量1.6k

点赞数

——转自：http://blog.csdn.net/sunbaigui/article/details/50807362

简单明了，就再转到这里，多谢。

一、简介

googlenet和vgg是2014年imagenet竞赛的双雄，这两类模型结构有一个共同特点是go deeper。跟vgg不同的是，googlenet做了更大胆的网络上的尝试而不是像vgg继承了lenet以及alexnet的一些框架，该模型虽然有22层，但大小却比alexnet和vgg都小很多，差不多20m的样子。

二、网络分析

具体网络配置如链接：https://github.com/BVLC/caffe/blob/master/models/bvlc_googlenet/train_val.prototxt

文章提出获得高质量模型最保险的做法就是增加模型的深度（层数）或者是其宽度（层核或者神经元数），但是这里一般设计思路的情况下会出现两个缺陷（1.参数太多，容易过拟合，若训练数据集有限；2.网络越大计算复杂度越大，难以应用；3.网络越深，梯度越往后穿越容易消失，难以优化模型）。googlenet的主要思想就是围绕这两个思路去做的：

1.深度，层数更深，文章采用了22层，为了避免上述提到的梯度消失问题，googlenet巧妙的在不同深度处增加了两个loss来保证梯度回传消失的现象。

2.宽度，增加了多种核1x1，3x3，5x5，还有直接max pooling的，但是如果简单的将这些应用到feature map上的话，concat起来的feature map厚度将会很大，所以在googlenet中为了避免这一现象提出的inception具有如下结构，在3x3前，5x5前，max pooling后分别加上了1x1的卷积核起到了降低feature map厚度的作用。以下是googlenet用的inception可以称之为inception v1，如下图所示：