一、Deeplab v1《Semantic image segmentation with deep convolutional nets and fully connected CRFs》(ICLR2015)
摘要
深度卷积网络(DCNNs)在high-level视觉任务中表现很好,例图像分类、目标检测等。语义图像分割汇集DCNNs和概率图模型的方法进行逐像素分类处理。此文章验证了DCNNs的最后一层响应不足够定位精确的目标分割。由于不变的性质使得DCNNs适合high-level任务。文章通过结合DCNNs的最后一层响应和一个全连接条件随机场(CRF)解决深度网络的定位效果差。定性分析,Deeplab系统相比之前方法可以以一定精确度定位分割边界。定量分析,此方法在PASCAL VOC-2012语义分割任务测试集上精确度IOU=71.6%。
问题:DCNNs的不变性不足够进行语义分割
方法:结合DCNNs和概率图模型,即DCNNs最后一层响应和条件随机场解决边界分割问题
效果:
二、Deeplab v2(TPAMI)
《DeepLab: Semantic Image Segmentiation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》
摘要
在这篇文章中用深度学习方法处理语义分割,有三个主要的贡献:1、用上采样滤波或洞卷积(Atrous Convolution)突出卷积,是密集预测任务中强大工具。洞卷积允许在DCNNs计算的特征响应上显示控制分辨率。同时在不增加参数量和计算复杂度情况下有效扩大滤波感受野来混合更丰富的上下文信息。2、提出一个带洞空间金字塔pooling(ASPP)在多尺度上稳定分割目标。ASPP使用多个采样率和有效视野的滤波器探测传入的卷积特征层,从而捕获多个尺度的对象和图像上下文。3、提出目标边界的定位,通过结合DCNNs和概率模型。普通DCNNs中max-pooling和下采保持不变性但对定位精确度有影响,用DCNNs和CRF结合解决定位精确度问题,在PASCAL VOC2012上达到mIOU=79.7%。
问题:语义分割问题
方法:洞卷积、洞空间金字塔池化、DCNNs+CRF
洞卷积作用:增强密集预测、扩大感受野
洞空间金字塔池化作用:多尺度图像表示
DCNNs+CRF作用:对精确边界的结构预测
效果:PASCAL VOC2012上达到mIOU=79.7%
三、Deeplab v3
《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》
编解码带洞分离卷积
摘要:
空间金字塔池化模块、编解码结构都是用在语义分割任务上。之前的网络能通过使用滤波器或多个有效感受野的池化操作捕捉传入特征编码多尺度上下文信息,后来的网络可以通过逐渐恢复空间信息来获取更清晰的目标边界。这篇工作中,结合之前方法的优点,称为DeepLabv3,通过增加简单有效的解码模块精细分割结果尤其物体边界。进一步,使用Xception model和深度可分卷积(depthwise separable convolution),结合ASPP和解码模块得到一个更快、更强的编-解码网络。在PASCAL VOC2012上达到89.0%,Cityscapes达到82.1%,都没有后处理。
问题:语义分割精确度问题
方法:编-解码结构,引入解码模块;结合Xception model和深度可分卷积(depthwise separable convolution)和ASPP、解码模块。
深度可分卷积(depthwise separable convolution)与普通卷积区别:
假设对RGB图像做卷积:
普通卷积的操作过程是对图像的三个通道做相同卷积操作;
深度可分卷积的操作过程是对图像的每个通道采用不同的卷积操作。
深度可分卷积实现过程:将标准卷积分解为深度卷积,然后是逐点卷积(即1×1卷积),大大降低了模型计算复杂度并且保持性能不变甚至更好。深度卷积对于每个输入通道独立地执行空间卷积,而逐点卷积用于组合来自深度卷积的输出,空间卷积可以替换为带洞卷积。
Xception model作用:提高分割性能,加快计算速度
效果:在没有后处理情况下,在PASCAL VOC2012上达到89.0%,Cityscapes达到82.1%,且更快、更强。
四、DeepLab系列对比分析
Deeplabv1使用CRF后处理,提高分割边界的精确度;
Deeplabv2使用洞卷积扩大感受野,使用洞空间金字塔池化实现多尺度预测和上下文信息提取,同时用到后处理CRF;
Deeplabv3不使用后处理,使用编-解码结构提高分割边界预测,使用深度分离卷积和Xception模块。