DeepLab V3 论文笔记

最新推荐文章于 2024-08-19 09:04:27 发布

懒骨头707

最新推荐文章于 2024-08-19 09:04:27 发布

阅读量2k

点赞数 4

分类专栏： python CNN

python 同时被 2 个专栏收录

46 篇文章 8 订阅

订阅专栏

CNN

3 篇文章 0 订阅

订阅专栏

本博客转载于知乎，原文链接：DeepLab V3 论文笔记

论文：Rethinking Atrous Convolution for Semantic Image Segmentation

论文最早版本arXiv上的发表时间是2017.06

DeepLab V3 è®ºæç¬è®°

Abstract

在本文中，我们重新回顾了空洞卷积在语义分割中的应用，这是一种显式调整滤波器感受野和控制网络特征响应分辨率的有力工具。

为了解决多尺度分割对象的问题，我们设计了采用级联或并行、多个不同空洞率的空洞卷积模块，以捕获多尺度上下文信息。
此外，扩充了先前提出的空洞卷积空间金字塔池化模块，该模块在多尺度上探测卷积特征，可以编码图像级的全局上下文特征，并能进一步提高性能。
我们还就实施细节进行了讨论，并分享了我们在训练系统方面的经验。

提出的DeepLab V3比我们以前的DeepLab有了很大的改进，没有经过Dense CRF的后处理，并且在Pascal VOC 2012语义图像分割基准上获得了state-of-art的性能。

1. Introduction

深层卷积神经网络(DCNNs)应用于语义分割的任务，我们考虑了面临的两个挑战：

第一个挑战：连续池化操作或卷积中的stride导致的特征分辨率降低。这使得DCNN能够学习更抽象的特征表示。然而，这种不变性可能会阻碍密集预测任务，因为不变性也导致了详细空间信息的不确定。为了克服这个问题，我们提倡使用空洞卷积。

第二个挑战：多尺度物体的存在。几种方法已经被提出来处理这个问题，在本文中我们主要考虑了这些工作中的四种类型，如图所示。

第一种：Image Pyramid，将输入图片放缩成不同比例，分别应用在DCNN上，将预测结果融合得到最终输出
第二种：Encoder-Decoder，将Encoder阶段的多尺度特征运用到Decoder阶段上来恢复空间分辨率
第三种：在原始模型的顶端叠加额外的模块，以捕捉像素间长距离信息。例如Dense CRF，或者叠加一些其他的卷积层
第四种：Spatial Pyramid Pooling空间金字塔池化，使用不同采样率和多种视野的卷积核，以捕捉多尺度对象

在本工作中：

我们重新讨论了在级联模块和空间金字塔池化的框架下应用空洞卷积，这使得能够有效地扩大滤波器的感受野，将多尺度的上下文结合起来。
特别的，我们提出的模块由具有不同采样率的空洞卷积卷积和BN层组成，对于训练十分重要。试验了级联或并行方式来部署ASPP模块。
讨论了一个重要问题：大采样率的3×3空洞卷积，图像边界处无法捕获远距离信息，会退化为1×1，我们建议在ASPP模块中加入图像级特征。
此外，我们详细介绍了实现的细节，并分享了训练模型的经验，还包括一种简单而有效的引导方法，用于处理稀有和精细注释的对象。

最后，提出的模型DeepLab V3改进了我们以前的工作，并在Pascal VOC 2012上获得了85.7%的表现，并且我们没有使用CRF后处理。

2. Related Work

多个工作已经证明了全局特性或上下文的相互作用有助于语义分割。在本文中，我们讨论了四种利用上下文信息进行语义分割的全卷积网络(FCNs)，见图2。

图像金字塔(Image pyramid)：同样的模型，通常使用共享权重，使用多尺度的输入。小尺寸的输入特征响对应长距离语义，大尺寸输入的相应修正细节。通过拉普拉斯金字塔对输入图像进行变换，将不同尺度的图片输入到DCNN，并将所有比例的特征图合并。有人将多尺度输入按顺序从粗到细依次应用，也有人直接将输入调整成不同的大小，并融合所有大小的特征。这类模型的主要缺点是由于GPU内存，较大/更深的DCNN不方便应用，因此通常在推理阶段应用。

编码器-解码器(Encoder-decoder)：该模型由两部分组成：(a)编码器中，特征映射的空间维度逐渐减小，从而更容易捕获较长范围内的信息；(b)解码器中，目标细节和空间维度逐渐恢复。例如，有人反卷积来学习对低分辨率特征响应进行上采样。SegNet复用编码器中的池化索引，学习额外的卷积层来平滑特征响应；U-net将编码器中的特征层通过跳跃连接添加到相应的解码器激活层中；LRR使用了一个拉普拉斯金字塔重建网络。最近，RefineNet等证明了基于编码-解码结构的有效性。这类模型也在对象检测的领域得到了应用。

上下文模块(Context module)：包含了额外的模块，采用级联的方式，用来编码远距离上下文信息。一种有效的方法是合并Dense CRF到DCNNs中，共同训练DCNN和CRF。

空间金字塔池化(Spatial pyramid pooling)：空间金字塔池化可以在多个范围内捕捉上下文信息。ParseNet从不同图像等级的特征中获取上下文信息。DeepLabv V2提出了空洞卷积空间金字塔池化(ASPP)，使用不同采样率的并行空洞卷积层才捕获多尺度信息。PSPNet在不同网格尺度上执行空间池化，并在多个语义分割数据集上获得出色的性能。还有其他基于LSTM的方法聚合全局信息。

在本工作中，我们主要探讨空洞卷积作为上下文模块和空间金字塔池化的工具。我们提出的框架是一般性的，可以适用于任何网络。具体而言，我们取ResNet最后一个block，复制多个级联起来，送入到包含多个平行空洞卷积的ASPP模块中。注意，我们的级联模式是直接应用于feature maps，而不是belief maps。我们通过实验发现使用BN层有利于模块的训练。为了进一步捕获全局上下文，我们建议像PSPNet一样在ASPP上融入图像级特征。

空洞卷积(Atrous convolution)：基于空洞卷积的模型在语义分割中得到了积极的探索。例如，有人修改采样率来探索获取远距离信息的效果；有人在ResNet的最后两个块内采用混合空洞卷积采样率；有人进一步提出可变形的卷积，使用学习到的偏移量对输入特征进行采样，泛化空洞卷积。

3. Methods

3.1. Atrous Convolution for Dense Feature Extraction

前两篇论文都讲过空洞卷积这个了，略过，可以看以前V1、V2的笔记

加油可好：DeepLab V1 论文笔记

加油可好：DeepLab V2 论文笔记

3.2. Going Deeper with Atrous Convolution

首先，我们用级联的方式设计了空洞卷积模块。

具体而言，我们取ResNet中最后一个block(ResNet的block4)，并将他们级联到了一起，如图3所示。

有三个3×3卷积在这些块中，除了最后一个块，其余的模块中最后的一个卷积步长为2，类似于原来的ResNet。这么做背后的动机是，引入的stride使得更深的模块更容易捕获长距离的信息。如图3(a)，整个图像的特征都可以汇聚在最后一个小分辨率的特征图中。

然而，我们发现连续的stride对语义分割是有害的，会造成细节信息的丢失(如下表)。

输出步幅越长的特征映射，结果越差，结果最好的out_stride=8却需要占用较多的存储空间。

因此我们使用了不同采样率的空洞卷积。如图3(b)中，输出步幅为out_stride = 16。这样不增加参数量和计算量的同时有效的缩小了步幅。

3.2.1 Multi-grid Method

受到了采用不同大小网格层次结构的多重网格方法的启发，我们提出的模型在block4和block7中采用了不同的空洞率。

特别的，我们定义Multi_Grid = $(r_{1},r_{2},r_{3})$ 为block4到block7内三个卷积层的unit rates。卷积层的最终空洞率等于unit rate和corresponding rate的乘积。例如，当output_stride = 16 ，Multi_Grid = (1, 2, 4)，三个卷积就会在block4有 rates = 2 · (1, 2, 4) = (2, 4, 8) 。

3.3. Atrous Spatial Pyramid Pooling

我们重新审视了DeepLab V2中提出的ASPP，其在特征映射的顶层并行应用了四个具有不同采样率的空洞卷积。ASPP的灵感来自于空间金字塔池化，它表明在不同尺度上采样特征是有效的。不同意上一版，DeepLab V3的ASPP中包括了BN。

不同采样率的ASPP能有效地捕捉多尺度信息。但是，我们发现，随着采样率的增加，滤波器的有效权重(指权重应用于特征区域，而不是填充0的部分)逐渐变小。如图4所示。

当在65×65大小的特征图上应用不同采样率的3×3卷积时。在比率值已经接近于特征映射大小的极端情况下，这时的3×3卷积核已经无法捕获整个图像上下文信息，而是退化为一个简单的1×1卷积核，因为此时只有中心点的权重才是有效的。

为了克服这个问题，并将全局上下文信息纳入模型，我们采用了图像级特征。具体来说，我们在模型的最后一个特征图采用全局平均池化，将重新生成的图像级别的特征提供给带256个滤波器(和BN)的1×1卷积，然后双线性插值将特征提升到所需的空间维度。

最后，我们改进后的ASPP包括：

(a)一个1×1的卷积与三个3×3的rates=(6, 12, 18)的空洞卷积，滤波器数量都为256，包含BN层。针对output_stride=16的情况
(b)图像级特征，如图5所示

注意，当output_stride=8时，加倍了采样率。然后将所有分支的特征图通过一个1×1卷积(有256个滤波器和BN)concatenate起来，送入最后的1×1卷积以产生最终分数。

4. Experimental Evaluation

采用预训练的ResNet为基础层，配合使用空洞卷积控制输出步幅。
output_stride定义为输入图像的分辨率与最终输出分辨率的比值。例如当输出步幅为8时，原ResNet的最后两个block(block3和block4)包含的空洞卷积的采样率为r=2和r=4。

4.1. Training Protocol

Learning rate policy:

采用poly策略，在初始学习率基础上乘 $\left( 1-\frac{iter}{max~iter} \right)^{power}$ ，其中

Crop size:

为了大采样率的空洞卷积能够有效，需要较大的图片大小；否则，大采样率的空洞卷积权值就会主要用于padding区域。
在Pascal VOC 2012数据集的训练和测试中我们采用了513的裁剪尺寸。

Batch normalization：

我们在ResNet之上添加的模块都包括BN层
当output_stride=16时，采用batchsize=16，同时BN层的参数做参数衰减0.9997。
在增强的数据集上，以初始学习率0.007训练30K后，冻结BN层参数，然后采用output_stride=8，再使用初始学习率0.001在PASCAL官方的数据集上训练30K。
训练output_stride=16比output_stride=8要快很多，因为其中间的特征映射在空间上小四倍。但output_stride=16在特征映射上相对粗糙，快是因为牺牲了精度。

Upsampling logits: