GoogLeNet V3

最新推荐文章于 2024-08-29 12:09:23 发布

正在进步的小李

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量45

点赞数

分类专栏： CV经典论文文章标签：神经网络计算机视觉人工智能深度学习 cnn

本文链接：https://blog.csdn.net/m0_72955351/article/details/131726590

版权

CV经典论文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

GoogLeNetV3是针对卷积神经网络深度、宽度和计算量的优化研究，提出了分解卷积核、正则化策略和标签平滑等方法，以提高精度并减少计算复杂性。通过避免信息瓶颈、卷积分解和拓展卷积，尤其是非对称卷积的应用，以及适应低分辨率图像的网络结构调整，提升了模型的效率和性能。

摘要由CSDN通过智能技术生成

GoogLeNet V3

研究背景

ILSVRC挑战赛
相关研究

GoogLeNet V1：采用多尺度卷积、1*1卷积操作、辅助损失函数、实现更深的22层卷积神经网络，夺得了ILSVRC-2014分类和检测冠军以及定位亚军

GoogLeNet V2：在V1的基础上增加BN层，将5*5卷积全面替代2个3*3卷积堆叠形式，进一步提升模型训练

VGG：缺点VGG网络模型大、参数多、计算量大、不适用于真实场景

研究问题

目前精度高的卷积神经网络都是参数多、计算量大、存在落地困难。针对这个问题，本文提出分解卷积核和正则化策略，从而提升网络的精度

研究成果

四个网络结构设计准则

通过大量实验得出结论，并无理论证明

尽量避免信息瓶颈，通常发生在池化层，即特征图变小，信息量进一步减小，类似一个瓶颈
采用更高维的表示方法能够更容易处理网络的局部信息
大的卷积核可以分解成数个卷积核，且不会降低网络能力
把握好网络的深度和宽度的平衡

特征图下降

传统的方法存在信息表示瓶颈问题（违反了准则1），即特征图信息变小
简单的解决方法：先用卷积将特征图通道数翻倍，再池化。但是存在一个问题：计算量过大。解决方法：用卷积得到一半的特征通道数，用池化得到另外一半的特征通道数
本文采用这个方法将35*35下降至17*17以及17*17下降至8*8
在这里插入图片描述

卷积分解

1个5*5卷积可以分解为2个3*3卷积（和VGG思想一样）
不对称卷积

1个n*n卷积可以分解为1*n卷积和n*1卷积
这种方法可以减少计算量
注意事项：非对称卷积在后半段使用效果才好，特别是特征分辨率在12-20之间。本文在分辨率为17*17的时候使用非对称卷积分解

标签平滑

传统的one-hot编码存在问题——过度自信，导致过拟合
因此提出标签平滑，把one-hot中概率为1的那一项进行衰减，避免过度自信，衰减的那一部分confidence平均分到每一个类别中。
在这里插入图片描述
这里的q'即标签平滑之后的标签，让模型输出的p分布去逼近q'。第一项中的函数是代表：k=y，输出1；否则输出0。而u(k)是均匀分布，从而输出变成：

代入交叉熵损失函数，此时变成：