GoogLe图像分类模型 Inception-v2,Inception-v3 论文笔记

本文详细介绍了GoogLe图像分类模型Inception-v2和Inception-v3的设计原理和改进策略,包括卷积的因式分解、辅助分类器、特征图尺寸降低等方法,旨在减少计算量并提升模型性能。实验结果显示,这些优化策略能够有效提高网络的分类准确率。
摘要由CSDN通过智能技术生成

GoogLe图像分类模型 Inception-v2,Inception-v3 论文笔记

标题:Rethinking the Inception Architecture for Computer Vision
作者:Christian Szegedy,Vincent Vanhoucke, etc.
下载地址:https://arxiv.org/abs/1512.00567

1 简介

  • 自2012年Alexnet提出以来,图像分类、目标检测等一系列领域都被卷积神经网络CNN统治着。接下来的时间里,人们不断设计新的深度学习网络模型来获得更好的训练效果。一般而言,许多网络结构的改进(例如从VGG到RESNET可以给很多不同的计算机视觉领域带来进一步性能的提高。
  • 这些CNN模型都有一个通病:计算量大。最早的AlexNet含有60M个参数,之后的VGGNet参数大致是AlexNet的3倍之多,而14年GoogLe提出的GoogleNet仅有5M个参数,效果和AlexNet不相上下。虽然有一些计算技巧可以减少计算量,但是在无形中会增加模型的复杂度。参数少的模型在一些超大数据量或内存受限的场景下具有很大优势。
  • 14年GoogLe提出的GoogleNet也叫Inception,设计的目的就是为了减少计算参数和内存使用,但其论文does not provide a clear description about the contributing factors that lead to the various design decisions of the GoogLeNet architecture,于是很难将其用到一些新的场景上。本篇论文,就是要对Inception结构进行改进,已获得更好的分类效果。

2 一些设计准则

  • 本小节介绍了四个基于大量实验得出的设计经验,后面的模型多少也有体现出这些准则,但是这些并非在所有场景下都适用:
    • 在网络的前面部分,避免表示瓶颈。网络中的特征图尺寸虽然越来越小,但是一开始不能将尺寸压缩得太过。特征的维度(通道)只能提供图像信息的简单估计,很多结构关联信息都体现在特征的尺寸上。
    • 高维度特征在网络局部更容易处理。增加维度(通道数)能让网络生成更多解耦的信息,利于训练。
    • 在低维度时进行空间聚合,可减少表达的损失。
    • 权衡网络的宽度和深度。宽度和深度可能分别指的是每个卷积层滤波器数量和网络总深度(Optimal performance of the network can be reached by balancing the number of filters per stage and the depth of the network. )。虽然二者同时增加最能提高网络性能,但需要注意计算资源的消耗。

3 卷积的因式分解

  • GoogleNet带来的性能提升很大程度上要归功于“降维”,也就是卷积分解的一种。考虑到网络邻近的激活单元高度相关,因此聚合之前进行降维可以得到类似于局部特征的东西。接下来主要讨论其他的卷积分解方法。既然Inception网络是全卷积,卷积计算变少也就意味着计算量变小,这些多出来的计算资源可以来增加filter-bank的尺寸大小。

卷积因式分解成小的卷积

  • 卷积核大,计算量也是成平方地增大。假设有一个5*5的卷积核,我们可以Figure1将其分成两次3*3卷积,这样输出的尺寸就一样了。虽然5*5的卷积可以捕捉到更多的邻近关联信息,但两个3*3组合起来,能观察到的“视野”就和5*5的一样了。分解之后,训练的参数从 55=
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值