[译]Rethinking Atrous Convolution for Semantic Image Segmentation

最新推荐文章于 2022-09-14 18:12:02 发布

ZLiang_

最新推荐文章于 2022-09-14 18:12:02 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_31802027/article/details/74585845

版权

本文探讨了空洞卷积在解决语义图像分割中分辨率降低和多尺度问题的作用。通过使用空洞卷积，可以在保持高分辨率特征图的同时，增加滤波器的感受野。研究了空洞空间金字塔池化（ASPP）方法，以捕获不同尺度的信息。实验表明，结合多尺度处理和空洞卷积，模型在PASCAL VOC 2012测试集上取得了85.7%的mIOU成绩。

摘要由CSDN通过智能技术生成

Abstract

在本文中，我们重温一下Atrous Convolution的妙用，Atrous Convolution能在调整滤波器的感受野的的同时，解决DCNNs造成的分辨率降低的问题。同时，为了解决图像语义分割的多尺度问题，设计了很多模型，包括并行或者串行的使用不同的rate的Atrous Convolution。更进一步的提出了ASPP。接下来会详细的说明实现的具体的细节和训练过程，我们的Deeplabv3在没有Dense crf的后期处理的条件下取得了非常不错的成绩，达到了state-of-art。

1. Introduction

对使用DCNNs进行图片语义分割的任务来说，我们认为主要有两大挑战，第一是由DCNNs中的下采样（如pooling,convolution stride等）造成的特征图分辨率降低，这种局部的不变性会对密集的预测任务造成干扰，因为丢失了很多空间信息。为了解决这一问题，提出了Atrous Convolution，也称为Dilated convolution，被证明对图片语义分割的任务很有效。通过使用Atrous Convolution，允许我们使用在ImageNet 上预训练好的模型来提取更加密集的特征图，也就是空间分辨率更高的特征图。
<code>Atrous Convolution</code>示意图
第二个则是物体存在的多尺度问题，主要有4种策略来解决这个问题。

如上图所示，第一种办法是对不同的sacle的image进行并行的处理，再融合在一起。第二办法是使用编码和解码的对称结构，利用来自编码器部分的多尺度特征并从解码器部分恢复空间分辨率。第三种办法是在原始的网络上级联一些模块，用以捕获更多的信息。第四则是大名鼎鼎的SPP的使用了。