3.10 图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

最新推荐文章于 2022-06-23 10:06:39 发布

aiAIman

最新推荐文章于 2022-06-23 10:06:39 发布

阅读量226

点赞数

分类专栏：深度学习文章标签：深度学习神经网络 cv

本文链接：https://blog.csdn.net/coolyoung520/article/details/109082672

版权

3.10 图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

GoogLeNet

GoogLeNet是2014年ImageNet比赛的冠军，它的主要特点是网络不仅有深度，还在横向上具有“宽度”。由于图像信息在空间尺寸上的巨大差异，如何选择合适的卷积核来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征；而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题，GoogLeNet提出了一种被称为Inception模块的方案。如图4 所示：

说明：

Google的研究人员为了向LeNet致敬，特地将模型命名为GoogLeNet
Inception一词来源于电影《盗梦空间》（Inception）

图4：Inception模块结构示意图

图4(a)是Inception模块的设计思想，使用3个不同大小的卷积核对输入图片进行卷积操作，并附加最大池化，将这4个操作的输出沿着通道这一维度进行拼接，构成的输出特征图将会包含经过不同大小的卷积核提取出来的特征(包含多种类型的卷积核，那么到底哪种卷积核效果更好，也就可以交给机器来处理啦)。Inception模块采用多通路(multi-path)的设计形式，每个支路使用不同大小的卷积核，最终输出特征图的通道数是每个支路输出通道数的总和，这将会导致输出通道数变得很大，尤其是使用多个Inception模块串联操作的时候，模型参数量会变得非常大。为了减小参数量，Inception模块使用了图(b)中的设计方式，在每个3x3和5x5的卷积层之前，增加1x1的卷积层来控制输出通道数；在最大池化层后面增加1x1卷积层减小输出通道数。基于这一设计思想，形成了上图(b)中所示的结构。下面这段程序是Inception块的具体实现方式，可以对照图(b)和代码一起阅读。

（注意学习模型主要优化的思想）

提示：

可能有读者会问，经过3x3的最大池化之后图像尺寸不会减小吗，为什么还能跟另外3个卷积输出的特征图进行拼接？这是因为池化操作可以指定窗口大小kh=kw=3，pool_stride=1和pool_padding=1，输出特征图尺寸可以保持不变。

Inception模块的具体实现如下代码所示：

class Inception(fluid.dygraph.Layer):
    def __init__(self, c1, c2, c3, c4, **kwargs):
        '''
        Inception模块的实现代码，
        
        c1,  图(b)中第一条支路1x1卷积的输出通道数，数据类型是整数

最低0.47元/天解锁文章

aiAIman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3.10 图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.10图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)GoogLeNetGoogLeNet是2014年ImageNet比赛的冠军，它的主要特点是网络不仅有深度，还在横向上具有“宽度”。由于图像信息在空间尺寸上的巨大差异，如何选择合适的卷积核来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征；而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题，GoogLeNet提出了一种被称为Ince..
复制链接

扫一扫