DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs –阅读笔记
论文来源: IEEE Transactions on Pattern Analysis and Machine Intelligence
论文链接:https://export.arxiv.org/pdf/1606.00915
Abstract
本文用深度学习处理语义图像分割的任务,并且通过实验证明有三个主要贡献具有实质的实用价值。
- 首先,我们强调使用上采样滤波器进行卷积,或者将“atrous convolution”作为密集预测任务中的强大工具。 Atrous卷积允许我们明确地控制在深卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以并入较大的上下文,而不增加参数的数量或计算量。
- 第二,我们提出atrous spatial pyramid pooling(ASPP)来分割多个尺度的对象。 ASPP使用多个采样率和有效视场的滤波器来探测进入的卷积特征层,从而捕获多个尺度的对象以及图像上下文。
- 第三,通过组合DCNN和概率图形模型的方法,提高对象边界的本地化。 DCNN中通常部署的最大汇集和下采样的组合实现了不变性,但对定位精度有一定的限制。我们通过将最终DCNN层的响应与完全连接的条件随机场(Conditional Random FieldC,RF)进行组合来克服这一点,这在定性和定量上都显示出提高定位性能。
Introduction
DCNNs(Deep Convolutional Neural Networks)对局部图像变换存在内在不变性(built-in invariance),因此可以学习越来越多的数据表达。不变性意味着分类,对如语义分割等密集预测任务存在如下挑战:
- 降低特征分辨率;
- 多尺度物体的存在;
- 由于DCNN不变性导致的定位精度降低。
挑战1的解决方案:
- 从DCNN的最后几个最大合并层中去除下采样算子,而是在随后的卷积层中对滤波器进行上采样,导致以较高采样率计算的特征图。
- 通过一个组合的atrous卷积来恢复全分辨率特征图,该卷积更加密集地计算特征图,随后是对原始图像大小的特征响应的简单双线性插值。
挑战2的解决方案:
- 一个标准的处理方法就是将图像转换成图像,然后聚集特征或分数图。
- 作者提出一个由空间金字塔池(spatial
pyramid pooling)衍生的方案:在乘法优先级到卷积的情况下对给定特征层进行重采样。这种方法用具有互补有效视角的多个滤波器来阻止原始图像,从而捕获对象作为多尺度的有用图像上下文。有效地使用具有不同采样率的多个并行无穷大卷积层来实现该映射,称之为“atrous space pyramid pooling”(ASPP)技术。
挑战3的解决方案:
- 一个方法是在计算最终分割结果时,使用跳过层从多个网络层提取“超列(hyper-column)”特征。
- 我们通过使用完全连接的条件随机场(CRF)来提高我们的模型捕获细节的能力。 CRFs广泛用于语义分割,将通过多方式分类与由像素和边缘的局部相互作用捕获的低级信息或超像素组合的类得分(score)。
作者提出的DeepLab模型框架如下:
的DeepLab系统的三个主要优点是:
- 速度;
- 准确性;
- 简单性:仅由DCNN和CRF的级联组成。
Related Work
- 基于DCNN的第一系列语义分割系统通常采用级联的自下而上的图像分割,其次是基于DCNN的区域分类。虽然这些方法可以通过良好细分的尖锐边界获益,但它们不能从任何错误中恢复。
- 第二系列系统依赖于使用卷积计算的DCNN特征进行密集图像标注,并将它们与独立获得的分割结合在一起。这些方法采用与DCNN分类器结果分离的分割算法,使得有能产生过早的决策。
- 第三系列使用DCNN直接提供密集的类别级别的像素标签,这使得甚至可以完全丢弃分割。
DeepLab系统的关键因素:Atrous卷积有效的密集特征提取和通过全连接CRF对 raw DCNN scores 改进。
Methods
Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement
Atrous concolution 允许以任何所需的分辨率计算任何层的响应。
首先考虑一维信号:
- 输入一维信号: x[i]
- 具有长度 k 的滤波器:
w[k] - 对输入信号进行采样的步幅: r
- atrous 卷积输出:
y[i]
y[i]=∑k=