论文翻译 | FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmantation

最新推荐文章于 2024-04-25 10:03:12 发布

Shida

最新推荐文章于 2024-04-25 10:03:12 发布

阅读量1.3k

点赞数 2

本文提出FastFCN，通过联合金字塔上采样（JPU）模块，替代扩张卷积以降低计算复杂度，提高语义分割的速度和性能。JPU在不牺牲性能的情况下，计算时间减少3倍，并在Pascal Context和ADE20K数据集上取得sota结果。

摘要由CSDN通过智能技术生成

FastFCN: 对语义分割中扩张卷积的重新思考

摘要
引言
相关工作
方法

Deepwise AI Lab
2019.03.28
翻译时间：2019.04.09

摘要

现代语义分割的方法通常会在主干网络中使用扩张卷积来抽取高分辨率的特征图，使模型的计算复杂度和存储占用增大。为了替代耗时耗空间的扩张卷积，我们将抽取高分辨率特征图的任务构建为一个联合上采样问题，提出了一种新的联合上采样模块，称为***Joint Pyramid Upsampling (JPU)***。我们使用JPU的方法在没有性能损失的前提下降低了三倍的计算复杂度。实验显示了JPU优于其他上采样模块，且可以插入进现有的模型中降低计算复杂度并提升性能。通过将扩张卷积替换为JPU，我们的方法在Pascal Context数据集上达到sota水平，mIoU为51.3%，在ADE20K数据集上获得了0.5584的最终得分，而且速度快了三倍。代码已经开源 https://github.com/wuhuikai/FastFCN

引言

语义分割是一种计算机视觉中的基本任务之一，目标是将图像中的每个像素都分配一个语义标签。现代的方法通常使用全卷积网络(FCN)来解决这个问题，并取得了极大的成功。

传统的FCN由Long等人提出，从卷积神经网络中转变过来，用来进行图像分类。这种设计根据步长逐次对输入图像进行卷积或池化的的下采样，最后得到了一个低分辨率的特征图。尽管最后的特征图中编码了丰富的语义信息，但是精细化的图像结构信息被丢失了，这会使图像边界的预测不准。如图1a所示，传统的FCN通常会下采样5倍到最后的特征图，也就是减少了32倍的空间分辨率。

为了获得高分辨率的最终特征图，[3,28,18,30,27]采用了传统的FCN作为编码器来捕获高层的语义信息，接一个解码器结合编码器生成的多层特征图来逐步恢复空间信息。如图1b所示，我们把这样的方法叫做EncoderDecoder，其中解码器输出的预测图是高分辨率的。

另外，DeepLab移除了FCN的最后两层下采样操作，并且用扩张卷积来保证感受野和FCN相同。根据DeepLab，[38,6,36]采用了一种多尺度的语义模块在最终特征图的位置上，比EncoderDecoder方法更加出色。如图1c所示，在DilatedFCN中，最终特征图的空间分辨率比传统的FCN大了4倍，进而保留了更多的结构和位置信息。
在这里插入图片描述

图1：不同语义分割网络。(a) 是传统的FCN，(b) 是EncoderDecoder，(c) 是采用了扩张卷积的模型。

扩张卷积在保留最终特征图的空间分辨率上非常重要，使其性能优于EncoderDecoder的大多数方法。然而，扩张卷积会带来额外的计算复杂度和内存占用，限制了其在许多实时场合上的应用。以ResNet-101为例，相比于传统FCN，DilatedFCN有23个残差模块（69层卷积），需要4倍的额外计算开销和内存使用，3个残差模块（9层卷积）需要16倍额外的资源。

我们的目的是要解决上述的这些因扩张卷积而引起的问题，提出了新的联合上采样模块来代替扩张卷积，称为JPU。我们的方法以传统的FCN作为骨架，使用JPU在上采样低分辨率的最终特征图（output stride=32，OS=32），获得了一个高分辨率的特征图（OS=8），这样，计算时间和内存消耗都大大减少，并且没有性能上的损失。我们将这个优势归功于JPU实现的多尺度特征图的融合。

为了验证方法的有效性，我们首先进行了系统性的实验，展示了JPU能够在几种流型的方法中替代扩张卷积，并且不降低性能。接着，我们在各个语义分割基准上测试了所提方法，结果显示我们的方法达到网络sota性能，运行时间缩短了3倍。具体来说，我们优于Pascal Context上所有的baseline。【具体指标】

总结如下，我们的贡献有三点：

提出了一种减小计算量和存储空间的联合上采样模块，JPU；
基于JPU，在提升3倍速度的基础上，获得了更好的性能；
在Pascal Context和ADE20K上获得了sota效果。

方法

在这一部分，我们首先介绍最流行的语义分割模型，DilatedFCN。接着我们用JPU改造DilatedFCN。最后我们具体讨论JPU的细节，在此之前会简要介绍扩张卷积和步幅卷积。

DilatedFCN

为了在语义分割中用到深度神经网络，Long等人将CNN转换成全卷积的图像分类器。以ResNet-101为例，传统的CNN包含5个卷积阶段、1个全局平均池化、一个全连接层。为了构建FCN，全局平均池化和全连接层被替换为了卷积层，用来生成最后的标签图，如图1a所示。在两个连续的卷积模块之间会用到步幅卷积和/或空间池化层会被用到，使特征图在空间分辨率上减小。

FCN的空间分辨率减小了32倍，使预测位置和细节不准。为了获得高分辨率的最终特征图，DeepLab移除了两个特征图之间的下采样操作，如图1c，并用扩张卷积替代，使得感受野不变，因为叫做DilatedFCN。最后一层特征图下采样了8倍，保留了更多的位置和细节信息。接着DeepLab的工作，[38,6]提出了一种多尺度的语义模块来从最终特征图中获得语义信息，在语义分割上效果出色。

我们方法的框架

为了获得高分辨率的最终特征图，DilatedFCN中的方法移除了最后两个下采样操作，这样带来了计算负担和存储负担。在本文中，我们寻找一种DilatedFCN的替代品，来减小计算量和空间要求。同时，我们也希望没有性能损失。

为了实现这个目的，我们首先用传统的卷积层题海所有的扩张卷积，如图2，这样我们的主干和FCN是一致的，这样从Conv1到Conv5的5个特征图的空间分辨率依次降低2倍。为了获得类似于DilatedFCN的最终特征图，我们提出了一种新的联合上采样模块，JPU，它将最后三层特征图(Conv3-5)输入。之后经过一个多尺度语义模块（PSP/ASPP）或者一个全局语义模块（Encoding）来产生最终的预测输出。

对比DilatedFCN，我们的方法快了4倍，内存占用减小了。因此我们的方法比DilatedFCN又快又省空间。
在这里插入图片描述

图1：我们方法的框架总览。我们的方法使用原始FCN的主干网络，在主干之后，使用我们提出的JPU模块，JPU采用最后三层特征图输入，然后输出高分辨率的特征图，接着进入多尺度或全局语义模块，生成最终的标签图。

JPU

JPU生成特征图的方法和DilatedFCN骨架的最终特征图激活相似，可以被形式化为联合上采样，最终被CNN所用。

背景

联合上采样(Joint Upsampling)

给定一个低分辨率的目标图像和一个高分辨率的指导图像，联合上采样旨在从指导图像中转换出结构和细节来生成高分辨率的目标图像。一般而言，低分辨率的目标图像 $y_l$ 由低分辨率的指导图像 $x_l$ 通过变换 $f(\cdot)$ 生成，也就是说： $y_l=f(x_l)$ 。给定 $x_l$ 和 $y_l$ ，我们需要获得变换 $\hat{f}(\cdot)$ 来趋近 $f(\cdot)$ ，其中 $\hat{f}(\cdot)$ 的计算复杂度远低于 $f(\cdot)$ 。举例而言，如果 $f(\cdot)$ 是多层感知机MLP，那么 $\hat{f}(\cdot)$ 可以被简化为线性变换。高分辨率的目标图像 $y_h$ 就通过 $\hat{f}(\cdot)$ 作用在高分辨率的指导图像 $x_h$ 来获得。严格来说，给定 $x_l$ 、 $y_l$ 和 $x_h$ ，联合上采样定义如下：
$y_h=\hat{f}(x_h), \ where\ \hat{f}(\cdot)=\mathop{\arg\min_{h(\cdot)\in\mathcal{H}}}||y_l-h(x_l)||$
其中 $\mathcal{H}$ 是所有可能的变换函数的集合， $||\cdot||$ 是预定义的距离度量。

扩张卷积

扩张卷积由DeepLab提出，为了在保证感受野的前提下获得更高的空间分辨率。图3a展示了1D（扩张率=2）的扩张卷积，可以被分成以下三步：(1) 根据索引的奇偶性将输入特征图 $f_{in}$ 分成 $f^0_{in}$ 和 $f^1_{in}$ 两组，(2) 将每个特征图经过同一个卷积层，得到 $f^0_{out}$ 和 $f^1_{out}$ ，(3) 交错合并两个图生成 $f_{out}$ 。

步幅卷积

步幅卷积使输入特征图转换为空间分辨率降低的输出特征图，等效于图3b所示的两步：(1) 用常规的卷积处理输入特征图 $f_{in}$ 得到中间特征图 $f_m$ ，(2) 移除奇数索引的元素得到 $f_{out}$ 。
看不见

图3：一维下的扩张卷积(d=2)和步幅卷积(s=2)

重新构造Joint Upsampling

我们方法和DilatedFCN不同的地方在最后的两层。以第4层为例，DilatedFCN中，输入特征图先被常规的卷积处理，然后再经过一系列的扩张卷积(d=2)。而我们的方法先用stride=2的卷积处理输入特征图，然后采用几个常规的卷积来生成输出特征图。

严格来说，给定一个输入特征图 $x$ ，DilatedFCN的输出特征图 $y_d$ 获得方式如下：
$\begin{aligned} y_d &= x \rightarrow C_r \rightarrow C_d \rightarrow ...\rightarrow C_d\\ &= x \rightarrow C_r \rightarrow SC_rM \rightarrow ...\rightarrow SC_rM\\ &= x \rightarrow C_r \rightarrow S \rightarrow C_r \rightarrow ...\rightarrow C_r \rightarrow M\\ &= y_m\rightarrow S \rightarrow C_r \rightarrow... \rightarrow C_r \rightarrow M\\ &= \{y^0_m,y^1_m\} \rightarrow C^n_r \rightarrow M \end{aligned}$
在我们的方法中，特征图 $y_s$ 如下生成：
$\begin{aligned} y_s &= x \rightarrow Cs \rightarrow C_r \rightarrow ...\rightarrow C_r\\ &= x \rightarrow C_r \rightarrow R \rightarrow C_r \rightarrow ...\rightarrow C_r\\ &= y_m \rightarrow R \rightarrow C^n_r=y^0_m \rightarrow C^n_r \end{aligned}$
$C_r$ 、 $C_d$ 和 $C_s$ 分别代表了常规、扩张、步幅卷积， $C^n_r$ 代表了 $n$ 层常规卷积。 $S$ 、 $M$ 和 $R$ 分别代表了图3中的分离(split)、合并(merge)、缩小(reduce)操作，其中 $S$ 、 $M$ 可以被去掉。值得一提的是，上两个公式是1D简化条件下的，当然在2D下同样也可以得到相同的结论。

上述提到的公式显示了 $y_s$ 和 $y_d$ 可以通过不同输入（ $y^0_m$ 和 $y_m$ ，前者从后者下采样得到）经过同一个函数 $C^n_r$ 后获得。因此，给定 $x$ 和 $y_s$ ，特征图 $y$ 可以得到：
$y=\{y^0_m,y^1_m\} \rightarrow \hat{h} \rightarrow M\\ where\ \hat{h}=\mathop{\arg\min_{h\in\mathcal{H}}}||y_s-h(y^0_m)||$
和公式1中定义的联合上采样相同。当然对于Conv5也可以获得相似的结论。

用CNN解决问题

公式4是一个优化问题，需要花很多次的梯度下降迭代收敛。取而代之的是，我们提出了一种用CNN模块的近似优化方法。首先我们如公式4所示，给定 $x$ ，需要生成 $y_m$ ，然后特征图 $y^0_m$ 和 $y_s$ 聚集起来学习映射 $\hat{h}$ 。最后，聚集的特征图经过一个卷积模块输出最终的预测 $y$ 。

根据上文的分析，我们设计了如图4的JPU模块。具体来说，每个输入特征图首先先经过一个常规卷积模块(图4a)，作用是(1) 将 $x$ 变成 $y_m$ ，(2) 把 $f_m$ 降维进嵌入空间中。结果是，所有输入特征都被映射到同一个空间，便于融合和降低计算复杂度。

接着，生成的特征图经过上采样和合并操作，得到 $y_c$ （图4b）。四个分离的不同扩张率的扩张卷积并行抽取 $y_c$ 特征，其中不同的扩张率为不同的函数。具体来说，扩张率为1的卷积捕获 $y^0_m$ 和 $y_m$ 的剩余部分的关联，如图5蓝色框所示。扩张率为2、4、8的卷积用于学习将 $y^0_m$ 转换为 $y_s$ 的映射 $\hat{h}$ ，如图5绿框所示。因此JPU可以从多尺度特征图中抽取出多尺度的语义信息，达到更好的性能。这和ASPP有明显不同，后者仅挖掘最后一层特征图的信息。
在这里插入图片描述