FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

最新推荐文章于 2023-08-07 00:30:48 发布

w_xiaomu

最新推荐文章于 2023-08-07 00:30:48 发布

阅读量1.0k

点赞数

分类专栏：语义分割文章标签：语义分割

本文链接：https://blog.csdn.net/w_xiaomu/article/details/90296135

版权

语义分割专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文地址
简介：
本文提出背景：语义分割的方法通常使用膨胀卷积提取高分辨率的特征映射，这种方法会带来很大的内容和计算复杂性。为了解决这个问题，本文提出JPU模块。使用合并的金字塔上采样模块实现该方法，该方法可以降低计算量，同时准确性提升。
Introduction
下图是与本文相关的一些结构图：
在这里插入图片描述
图a：对输出图像进行下采样，使得最后一层具有低的特征分辨率；尽管最后一层有很丰富的语义信息，但是对其结构信息也会有损失的部分。这就导致对目标边界框的不准确预测。
图b：图b是对图a的改进，为了得到高分辨率的特征映射，使用原始的FCN作为编码得到高层的语义信息；解码旨在将在不同层特征映射的编码恢复空间信息，使得产生高的分辨率特征。
图c：保存更多的空间信息和位置信息。
结构
总体结构图
如图为本文的结构：
在这里插入图片描述
本文以ResNet101作为baseline进行实验。首先将conv3,4,6层的特征输出，送入到JPU模块中，JPU的作用是将不同层的特征合并并输出其特征映射。然后是多层上下文模块或者是全局上下文模块产生最终的预测。
空洞卷积(或者膨胀卷积)与步长卷积
在这里插入图片描述
空洞卷积分为如下三步：
1.根据索引的奇偶性将fin分为f0和f1,；
2.使用相同的卷积处理每个特征，产生f0out和f1out；
3.合并最后的所产生的特征得到fout特征。
步长卷积分为以下两步：
1.使用普通的卷积将fin处理为fm；
2.将fm中的移除基数，得到最终的输出fout。
其中涉及到公式参考论文。
JPU结构
在这里插入图片描述
图a：1 产生Ym，2 降维；
图b：上采样，级联；
图c：将特征转换为最终的预测

产生Ym的方法 在这里插入图片描述
首先使用h函数，将其转换为ys。然后使用不同的结构处理，可得到最后的结构，具体实现过程看论文。
实验
实验1 验证检测头部：

从图中可以看出使用编码+JPU的结构最好。
实验2 不同结构最优结果的对比
在这里插入图片描述
实验3：不同的backbone中不同的头部对比实验