FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

论文地址
简介:
本文提出背景:语义分割的方法通常使用膨胀卷积提取高分辨率的特征映射,这种方法会带来很大的内容和计算复杂性。为了解决这个问题,本文提出JPU模块。使用合并的金字塔上采样模块实现该方法,该方法可以降低计算量,同时准确性提升。
Introduction
下图是与本文相关的一些结构图:
在这里插入图片描述
图a:对输出图像进行下采样,使得最后一层具有低的特征分辨率;尽管最后一层有很丰富的语义信息,但是对其结构信息也会有损失的部分。这就导致对目标边界框的不准确预测。
图b:图b是对图a的改进,为了得到高分辨率的特征映射,使用原始的FCN作为编码得到高层的语义信息;解码旨在将在不同层特征映射的编码恢复空间信息,使得产生高的分辨率特征。
图c:保存更多的空间信息和位置信息。
结构
总体结构图
如图为本文的结构:
在这里插入图片描述
本文以ResNet101作为baseline进行实验。首先将conv3,4,6层的特征输出,送入到JPU模块中,JPU的作用是将不同层的特征合并并输出其特征映射。然后是多层上下文模块或者是全局上下文模块产生最终的预测。
空洞卷积(或者膨胀卷积)与步长卷积
在这里插入图片描述
空洞卷积分为如下三步:
1.根据索引的奇偶性将fin分为f0和f1,;
2.使用相同的卷积处理每个特征,产生f0out和f1out;
3.合并最后的所产生的特征得到fout特征。
步长卷积分为以下两步:
1.使用普通的卷积将fin处理为fm;
2.将fm中的移除基数,得到最终的输出fout。
其中涉及到公式参考论文。
JPU结构
在这里插入图片描述
图a:1 产生Ym,2 降维;
图b:上采样,级联;
图c:将特征转换为最终的预测

产生Ym的方法在这里插入图片描述
首先使用h函数,将其转换为ys。然后使用不同的结构处理,可得到最后的结构,具体实现过程看论文。
实验
实验1 验证检测头部:
在这里插入图片描述
从图中可以看出使用编码+JPU的结构最好。
实验2 不同结构最优结果的对比
在这里插入图片描述
实验3:不同的backbone中不同的头部对比实验
在这里插入图片描述

实验4.在同一数据集上不同模型的比较
在这里插入图片描述
实验5.不同的结构在不同实验数据集的对比
在这里插入图片描述
实验6.结构对比
在这里插入图片描述
总结:
使用本文的结构可以有以下的解决:
1 借鉴JPU的结构;
2.实验部分中对比实验的方法;
3.检测的头部的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值