[2017.07.10] Rethinking Atrous Convolution for Semantic Image Segmentation [文章链接]
- 2017-06-17, Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam [google research]
- DeepLab v3, 图像的语义分割
主要内容:
语义分割的两大问题:
[1]. pooling可以增加卷积感受野提取更多语义信息,但是会减小图像分辨率,带来图像分割边缘的离散. 作者引入Atrous思想,在训练好的模型的权重之间插入空隙,等价于pooling,但是可以控制好图像的分辨率。 作者在Atrous基础上设置了多种尺度,和Batch Normalization来方便模型训练。
[2]. 待分割物体的尺度多样化,作者主要通过空间金字塔来增加尺度信息。(spatial pyramid pooling)
实验发现,在ResNet中,连续的stride不利于图像分割,因为细节信息会损失,因此需要在使用Atrous的时候增加不同尺度。
在最后一层上加入Global average pooling来提取全图的信息。
对比实验
在PASCAL VOC2012上面,不适用任何后处理就可以达到最好的效果。