Deeplab系列再理解

DeepLab系列通过深度卷积网络与条件随机场结合,解决语义分割问题。从v1的DCNNs+CRF到v2的洞卷积和空间金字塔池化,再到v3的编解码结构与深度可分卷积,不断优化边界定位和计算效率,提升在PASCAL VOC和Cityscapes等数据集上的性能。
摘要由CSDN通过智能技术生成

一、Deeplab v1《Semantic image segmentation with deep convolutional nets and fully connected CRFs》(ICLR2015)

摘要

深度卷积网络(DCNNs)在high-level视觉任务中表现很好,例图像分类、目标检测等。语义图像分割汇集DCNNs和概率图模型的方法进行逐像素分类处理。此文章验证了DCNNs的最后一层响应不足够定位精确的目标分割。由于不变的性质使得DCNNs适合high-level任务。文章通过结合DCNNs的最后一层响应和一个全连接条件随机场(CRF)解决深度网络的定位效果差。定性分析,Deeplab系统相比之前方法可以以一定精确度定位分割边界。定量分析,此方法在PASCAL VOC-2012语义分割任务测试集上精确度IOU=71.6%。

问题:DCNNs的不变性不足够进行语义分割

方法:结合DCNNs和概率图模型,即DCNNs最后一层响应和条件随机场解决边界分割问题

效果:

二、Deeplab v2(TPAMI)

《DeepLab: Semantic Image Segmentiation with Deep Convolutional Nets, Atrous Convolution,  and Fully Connected CRFs》

摘要

在这篇文章中用深度学习方法处理语义分割,有三个主要的贡献:1、用上采样滤波或洞卷积(Atrous Convolution)突出卷积,是密集预测任务中强大工具。洞卷积允许在DCNNs计算的特征响应上显示控制分辨率。同时在不增加参数量和计算复杂度情况下有效扩大滤波感受野来混合更丰富的上下文信息。2、提出一个带洞空间金字塔pooling(ASPP)在多尺度上稳定分割目标。ASPP使用多个采样率和有效视野的滤波器探测传入的卷积特征层,从而捕获多个尺度的对象和图像上下文。3、提出目标边界的定位,通过结合DCNNs和概率模型。普通DCNNs中max-pooling和下采保持不变性但对定位精确度有影响,用DCNNs和CRF结合解决定位精确度问题,在PASCAL VOC2012上达到mIOU=79.7%。

问题:语义分割问题

方法:洞卷积、洞空间金字塔池化、DCNNs+CRF

洞卷积作用:增强密集预测、扩大感受野

洞空间金字塔池化作用:多尺度图像表示

DCNNs+CRF作用:对精确边界的结构预测

 

效果:PASCAL VOC2012上达到mIOU=79.7%

 

三、Deeplab v3

《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》

编解码带洞分离卷积

摘要:

空间金字塔池化模块、编解码结构都是用在语义分割任务上。之前的网络能通过使用滤波器或多个有效感受野的池化操作捕捉传入特征编码多尺度上下文信息,后来的网络可以通过逐渐恢复空间信息来获取更清晰的目标边界。这篇工作中,结合之前方法的优点,称为DeepLabv3,通过增加简单有效的解码模块精细分割结果尤其物体边界。进一步,使用Xception model和深度可分卷积(depthwise separable convolution),结合ASPP和解码模块得到一个更快、更强的编-解码网络。在PASCAL VOC2012上达到89.0%,Cityscapes达到82.1%,都没有后处理。

问题:语义分割精确度问题

方法:编-解码结构,引入解码模块;结合Xception model和深度可分卷积(depthwise separable convolution)和ASPP、解码模块。

深度可分卷积(depthwise separable convolution)与普通卷积区别:

假设对RGB图像做卷积:

普通卷积的操作过程是对图像的三个通道做相同卷积操作;

深度可分卷积的操作过程是对图像的每个通道采用不同的卷积操作。

 

深度可分卷积实现过程:将标准卷积分解为深度卷积,然后是逐点卷积(即1×1卷积),大大降低了模型计算复杂度并且保持性能不变甚至更好。深度卷积对于每个输入通道独立地执行空间卷积,而逐点卷积用于组合来自深度卷积的输出,空间卷积可以替换为带洞卷积。

Xception model作用:提高分割性能,加快计算速度

 

效果:在没有后处理情况下,在PASCAL VOC2012上达到89.0%,Cityscapes达到82.1%,且更快、更强。

 

四、DeepLab系列对比分析

Deeplabv1使用CRF后处理,提高分割边界的精确度;

Deeplabv2使用洞卷积扩大感受野,使用洞空间金字塔池化实现多尺度预测和上下文信息提取,同时用到后处理CRF;

Deeplabv3不使用后处理,使用编-解码结构提高分割边界预测,使用深度分离卷积和Xception模块。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值