Deeplab系列再理解

最新推荐文章于 2024-09-20 14:23:31 发布

一只叫不二的龙猫

最新推荐文章于 2024-09-20 14:23:31 发布

阅读量2.7k

点赞数

分类专栏：论文翻译

论文翻译专栏收录该内容

14 篇文章 0 订阅

订阅专栏

DeepLab系列通过深度卷积网络与条件随机场结合，解决语义分割问题。从v1的DCNNs+CRF到v2的洞卷积和空间金字塔池化，再到v3的编解码结构与深度可分卷积，不断优化边界定位和计算效率，提升在PASCAL VOC和Cityscapes等数据集上的性能。

摘要由CSDN通过智能技术生成

一、Deeplab v1《Semantic image segmentation with deep convolutional nets and fully connected CRFs》（ICLR2015)

摘要

深度卷积网络（DCNNs）在high-level视觉任务中表现很好，例图像分类、目标检测等。语义图像分割汇集DCNNs和概率图模型的方法进行逐像素分类处理。此文章验证了DCNNs的最后一层响应不足够定位精确的目标分割。由于不变的性质使得DCNNs适合high-level任务。文章通过结合DCNNs的最后一层响应和一个全连接条件随机场（CRF）解决深度网络的定位效果差。定性分析，Deeplab系统相比之前方法可以以一定精确度定位分割边界。定量分析，此方法在PASCAL VOC-2012语义分割任务测试集上精确度IOU=71.6%。

问题：DCNNs的不变性不足够进行语义分割

方法：结合DCNNs和概率图模型，即DCNNs最后一层响应和条件随机场解决边界分割问题

效果：

二、Deeplab v2（TPAMI）

《DeepLab: Semantic Image Segmentiation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》

摘要

在这篇文章中用深度学习方法处理语义分割，有三个主要的贡献：1、用上采样滤波或洞卷积（Atrous Convolution）突出卷积，是密集预测任务中强大工具。洞卷积允许在DCNNs计算的特征响应上显示控制分辨率。同时在不增加参数量和计算复杂度情况下有效扩大滤波感受野来混合更丰富的上下文信息。2、提出一个带洞空间金字塔pooling（ASPP）在多尺度上稳定分割目标。ASPP使用多个采样率和有效视野的滤波器探测传入的卷积特征层，从而捕获多个尺度的对象和图像上下文。3、提出目标边界的定位，通过结合DCNNs和概率模型。普通DCNNs中max-pooling和下采保持不变性但对定位精确度有影响，用DCNNs和CRF结合解决定位精确度问题，在PASCAL VOC2012上达到mIOU=79.7%。

问题：语义分割问题

方法：洞卷积、洞空间金字塔池化、DCNNs+CRF

洞卷积作用：增强密集预测、扩大感受野

洞空间金字塔池化作用：多尺度图像表示

DCNNs+CRF作用：对精确边界的结构预测

效果：PASCAL VOC2012上达到mIOU=79.7%

三、Deeplab v3

《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》

编解码带洞分离卷积

摘要：

空间金字塔池化模块、编解码结构都是用在语义分割任务上。之前的网络能通过使用滤波器或多个有效感受野的池化操作捕捉传入特征编码多尺度上下文信息，后来的网络可以通过逐渐恢复空间信息来获取更清晰的目标边界。这篇工作中，结合之前方法的优点，称为DeepLabv3，通过增加简单有效的解码模块精细分割结果尤其物体边界。进一步，使用Xception model和深度可分卷积（depthwise separable convolution），结合ASPP和解码模块得到一个更快、更强的编-解码网络。在PASCAL VOC2012上达到89.0%，Cityscapes达到82.1%，都没有后处理。

问题：语义分割精确度问题

方法：编-解码结构，引入解码模块；结合Xception model和深度可分卷积（depthwise separable convolution）和ASPP、解码模块。