不同版本Inception Network介绍

最新推荐文章于 2024-08-01 01:57:13 发布

置顶 hustqb

最新推荐文章于 2024-08-01 01:57:13 发布

阅读量4.4k

点赞数 5

分类专栏： Deep Learning

Deep Learning 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

声明

参考A simple Guide to the Versions of the Inception Network，同时有一定的原创性。
现在网上有很多有关Inception的文章，但是都不如这篇英文文章介绍得好。
本文希望读者提前对神经网络、CNN有所了解。

Inception网络是卷积神经网络发展史上重要的里程碑，在Inception提出之前，卷积神经网络的发展仅仅是在不断的堆叠、加深。

另一方面，Inception网络比较复杂，复杂在网络结构和编程实现上。为了应用Inception，通常需要一些技巧(tricks)提升网络训练速度和网络学习效果。

Inception网络也是在不断发展，下面是最常见、最受欢迎的几个版本：

Inception v1
Inception v2 和 Inception v3
Inception v4 和 Inception-ResNet

Inception v1

论文：Going deeper with convolutions

引言

图像分类时，对分类影响大的部分被称为显著部分(salient parts)，影响较小的部分被称为背景部分。显著部分在不同图像中的位置和大小不一，如下图所示。

上面三个图像的类别都是狗，但是左一显著部分占据全图，左二显著部分稍小且位于中间，左三的显著部分最小且在中间靠上。

图像分类任务中，我们通常用滑动窗口卷积的方式检测边缘，进而学习图像特征。
滑动窗口卷积可以cover显著部分在位置上的多样性
而显著部分在大小上的多样性，对超参数——卷积核大小——的选取造成很大的困扰。因为较大的卷积核擅长学习全局性的特征，较小的卷积核擅长学习局部性的特征。
当然，不同小卷积核堆叠形成更深的CNN也可以提取全局的特征。但这种方式计算量大，也容易引发梯度消失和过拟合。

解决方案

Inception v0

为了使网络既能学习全局性特征，又能学习局部性特征，做了如下改进：

使用3个不同的卷积核 $1\times1, 3\times3, 5\times5$ (论文中说也可以加上 $7\times7, ...$ 但实验发现性价比不高)。
在宽度上增加 $3\times3$ 最大池化是为了增强图像的抗噪能力。
以上4个模块的结果会在通道(channel)轴做拼接。

Inception v1

为了减少参数数目，降低计算量，做了如下改进：

$3\times3$ 和 $5\times5$ 之前加入了 $1\times1$ 用于压缩并学习通道特征
$3\times3$ 最大池化后加入 $1\times1$ 也是为了压缩并学习通道特征

读者可能会问，为什么有时候 $1\times1$ 加在前、有时候在后？
这里论文没有给出说明，但我认为，从降低计算量的角度来看， $1\times1$ 应该加在前面。但是由于 $3\times3$ 最大池化是无参操作，而且所以 $1\times1$ 放在后面也不会增加计算量(然后maybe实验表明放在后面更好)。

关于 $1\times1$ 卷积的作用，论文在第4章讲到：
1x1 convolutions are used to compute reductions before the expensive 3x3 and 5x5 convolutions. Besides being used as reductions, they also include the use of rectified linear activation making them dual-purpose.