论文地址
简介:
本文提出背景:语义分割的方法通常使用膨胀卷积提取高分辨率的特征映射,这种方法会带来很大的内容和计算复杂性。为了解决这个问题,本文提出JPU模块。使用合并的金字塔上采样模块实现该方法,该方法可以降低计算量,同时准确性提升。
Introduction
下图是与本文相关的一些结构图:
图a:对输出图像进行下采样,使得最后一层具有低的特征分辨率;尽管最后一层有很丰富的语义信息,但是对其结构信息也会有损失的部分。这就导致对目标边界框的不准确预测。
图b:图b是对图a的改进,为了得到高分辨率的特征映射,使用原始的FCN作为编码得到高层的语义信息;解码旨在将在不同层特征映射的编码恢复空间信息,使得产生高的分辨率特征。
图c:保存更多的空间信息和位置信息。
结构
总体结构图
如图为本文的结构:
本文以ResNet101作为baseline进行实验。首先将conv3,4,6层的特征输出,送入到JPU模块中,JPU的作用是将不同层的特征合并并输出其特征映射。然后是多层上下文模块或者是全局上下文模块产生最终的预测。
空洞卷积(或者膨胀卷积)与步长卷积
空洞卷积分为如下三步:
1.根据索引的奇偶性将fin分为f0和f1,;
2.使用相同的卷积处理每个特征,产生f0out和f1out;
3.合并最后的所产生的特征得到fout特征。
步长卷积分为以下两步:
1.使用普通的卷积将fin处理为fm;
2.将fm中的移除基数,得到最终的输出fout。
其中涉及到公式参考论文。
JPU结构
图a:1 产生Ym,2 降维;
图b:上采样,级联;
图c:将特征转换为最终的预测
产生Ym的方法
首先使用h函数,将其转换为ys。然后使用不同的结构处理,可得到最后的结构,具体实现过程看论文。
实验
实验1 验证检测头部:
从图中可以看出使用编码+JPU的结构最好。
实验2 不同结构最优结果的对比
实验3:不同的backbone中不同的头部对比实验
实验4.在同一数据集上不同模型的比较
实验5.不同的结构在不同实验数据集的对比
实验6.结构对比
总结:
使用本文的结构可以有以下的解决:
1 借鉴JPU的结构;
2.实验部分中对比实验的方法;
3.检测的头部的方法。