《DeepLab v3+:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》论文笔记

1. 概述

导读:空间金字塔池化模块与编解码结构被广泛运用于DCNN网络的分割任务中。空间金字塔模块通过对输入的特征在多种比例与感受野上使用不同的filter或是池化操作,从而编码多尺度上下文信息;编解码结构可以通过逐步恢复的空间信息获取目标的边界。这篇文章提出的结构是DeepLab v3+,是在v3结构上添加一个解码模块,从而优化目标的边界。同时还引入了Xception模块,在ASPP模块与解码模块中使用depthwise分离卷积(减少参数与计算量)。在VOC2012数据集没有后处理的情况下获得了89%的的性能。

文章的主要贡献:

  • 1)提出了一个新的编解码结构,使用DeepLab v3作为强大的编码模块,后面接一个简单且高效的解码模块;
  • 2)在文章给出的编解码结构中,可以通过膨胀卷积在分割精度与运行时间上选择,任意控制编码器特征的分辨率,这个特性在现有的编解码模块里面是没有的;
  • 3)在这篇文章的方法中引入了Xception模块,并且在ASPP与解码模块中使用depthwise分离卷积,从而得到一个快速且强大的编解码网络;
  • 4)文章提出的方法在VOC-2012数据集上获得89%的性能,并且开源了TF的实现版本;

2. 网络设计

2.1 网络结构

在这里插入图片描述
上图中的(a)图是v3中的结构,(b)图是一个标准的编解码结构,(c)也就是这边文章采用的结构了,从图中一个很明显的区别就是增加了解码模块。

2.2 Encoder-Decoder with Atrous Convolution

DeepLab v3作为编码器
这里关于主干网络与ASPP的设计参考DeepLab v3的实现,这里将v3中输出端的前一个特征图作为编码器的输出与解码器的输入,着这个特征图的channel数为256,包含了丰富的语义信息。

后部解码器结构
文章对于解码器的设计见下图2所示,首先使用一个1x1的卷积去卷积主干网络上低层次的特征,用以减少channel数量;concat之后的特征经过3x3的特征进行优化,最后上采样回到原始的尺寸得到分割的结果。
在这里插入图片描述

2.3 Modified Aligned Xception

Xception网络是在最近提出的分类模型,在此基础上MSRA提出了改进的Xception model (称为Aligned Xception),这的分割就是使用该网络作为主干网络。

  • 1)添加更多的层,使得网络更深;
  • 2)所有的Max Pooling被替换称为了depthwise分析卷积,在任意的分辨率上使用膨胀卷积去提取特征;
  • 3)在3x3的depthwise分离卷积上添加BN与ReLU;

具体的改动见下图:
在这里插入图片描述

3. 实验结果

整体分割性能对比:
在这里插入图片描述

3.1 解码器设计实验

解码器中会使用主干网络中的低层次的特征,这不是是由1x1的卷积实现采样的,这里对采样的channel数量对分割性能的影响进行分析:
在这里插入图片描述
解码器中3x3卷积对分割性能的影响:
在这里插入图片描述

3.2 主干网络与output_stride对性能的影响

主干网络:
在这里插入图片描述
output_stride:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值