论文阅读:DeepLabv2

Abstract

本文为使用深度学习的语义分割任务,做出了三个主要贡献:
• 首先,强调使用空洞卷积,作为密集预测任务的强大工具。空洞卷积能够明确地控制DCNN内计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以并入较大的上下文,而不增加参数的数量或计算量。
• 其次,提出了空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP)),以多尺度的信息得到更强健的分割结果。ASPP并行的采用多个采样率的空洞卷积层来探测,以多个比例捕捉对象以及图像上下文。
• 最后,通过组合DCNN和概率图模型,改进分割边界结果。在DCNN中最大池化和下采样组合实现可平移不变性,但这对精度是有影响的。通过将最终的DCNN层响应与全连接的CRF结合来克服这个问题。

1 INTRODUCTION

DCNN(Deep Convolutional Neural Networks)将CV(computer vision)系统的性能推向了一个新的高度。成功的关键在于DCNN对于局部图像转换的内在不变性。这使得模型可以学习高层次的抽象表示。这种不变性带了高层次抽象表示的同时也可能妨碍诸如语义分割之类的密集预测任务,在获取空间信息上是不理想的。
将DCNN应用在语义分割任务上,我们认为有以下三个挑战:
• 特征分辨率的降低
• 多个尺度的对象
• 由于DCNN的内在不变性,定位精度低

3 METHODS

3.1 Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

为密集特征提取和感受野增大的空洞卷积
在这里插入图片描述
下分支:如果我们将全分辨率图像做空洞卷积(采样率为2,核大小与上面卷积核相同),直接得到结果。这样可以计算出整张图像的响应,如上图所示,这样做效果更佳。
**虽然有效滤波器的大小增加了,但实际计算参数时只需要考虑非零滤波器值,因此滤波器参数的数目和每个位置的操作数都保持不变。**该方案使我们能够方便地、显式地控制神经网络特征响应的空间分辨率。
比例 r 的空洞卷积在连续filters值之间引入 r-1 个0,有效地将一个 k×k 的滤波器的核大小扩大到ke = k + (k - 1)(r - 1),而不增加参数数量或计算量。因此,空洞卷积提供了一种有效的控制视野的机制,并在准确定位(小视野)和上下文空间信息(大视野)之间找到最佳权衡。

3.2 Multiscale Image Representations using Atrous Spatial Pyramid Pooling

用空洞空间金字塔池化表示多尺度图像
第二种方法受SPPNet中SPP模块的的启发,它指出在任意尺度的区域,可以用从单个尺度图像中进行重采样提取的卷积特征进行准确有效地分类。我们用不同采样率的多个并行的空洞卷积实现了他们的方案的一个变体。并行的采用多个采样率的空洞卷积提取特征,再将特征融合,类似于空间金字塔结构。所提出的“空洞空间金字塔池化”(DeepLab-ASPP)方法泛化了DeepLab-LargeFOV变体,如下图所示。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值