基于深度卷积网络,空洞卷积和全连接CRFs的图像语义分割(Deeplabv2)学习总结
Abstract
本文主要强调了基于深度学习语义分割的三大贡献:1.atrous convolution(空洞卷积)能明确控制特征响应分辨率和在不增大参数运算量的情况下增大卷积感受野获得更多的上下文信息;2.atrous spatial pyramid pooling(空洞空间金字塔池化)探索了一种采用多采样率和有效视野滤波器的输入卷积特征层,从而在多个尺度捕获对象及其上下文信息。3.通过结合DCNNs和CRFs进行对象边界定位。
1.Introduction
DCNNs图像语义分割的三个挑战:1.特征分辨率的降低;2.对象存在多尺度;3.由于DCNNs不变性导致的定位精度下降。
第一个挑战是由重复的max-pooling和downsampling(stride)产生的。为了解决这一问题,我们移除了DCNNs最后几层的max-pooling并在接下来的几层中使用upsampling filter(相当于在非零滤波器抽头之间插入孔,速记为atrous convolution空洞卷积)替代。在实践中,我们采用空洞卷积恢复了全分辨率的特征图,空洞卷积能够更加密集的计算特征图,随后对特征响应进行简单的双线性插值到原始图像大小。空洞卷积方案提供了一个简单并有效的反卷积替代品,与更大的卷积滤波器相比,空洞卷积有效增大了感受野而又不增加参数数量和运算量。
第二个挑战是对象存在多尺度,受到空间金字塔池化的启发,我们提出了一种就计算而言很高效的方案,即在卷积之前以多种采样率重新采样给定特征层。这相当于多个滤波器探索原始图像获得互补的视野,从而在多个尺度捕