DeepLab系列详解-CSDN博客

本文链接：https://blog.csdn.net/qq_41375318/article/details/103180113

DeepLab系列

卷积网络的平移不变性，随着神经网络的层数的加深，会减弱

1.一论文导读
2.二论文精读
3.三代码实现
4.四问题思索

V1:CRF
V2:使用空洞卷积扩大感受野，条件随机场细化边界;，加入多尺度下融合特征（Atrous Spatial Pyramid Pooling，ASPP ) ;
V3:使用image-level feature代替CRF

补充：ICLR（深度学习方向顶级会议）

全称: International Conference on Learning Representations
国际学习表征会议(深度学习的顶级会议)，2013年创办创办人: Yoshua Bengio & Yann LeCun
ICLR介绍:http://finance.jrj.com.cn/tech/2017/04/201 53122355479.shtml
Yann LeCun介绍: LeNet- 5作者，MNIST数据集制作者 https://blog.csdn.net/hacker_long/article/details/89609367

DeepLab v1

《DeepLab:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》
作者：Liang-Chieh,George Papandreou
单位：谷歌公司
发表会议及时间：ICLR 2015

https://arxiv.org/abs/1606.00915

CRF（Conditional Random Field—条件随机场）:解决边界不精确问题

➢背景概述: DCNNs的最后一层不足以进行精确分割目标
➢主要贡献:本文将深度卷积神经网络和CRF相结合，克服了深度网络的局部化特性
➢网络效果:该网络超过了以往方法的精度水平，可以更好地定位分割边界
➢实验结果:在PASCAL VOC 2012数据集中取得了71.6%的I0U;在正常GPU上可达到每秒8帧的处理速度

DeepLab v2

《DeepLab:Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs》
作者：Liang-Chieh,George Papandreou
单位：谷歌公司
发表会议及时间：TPAMI 2017

空洞卷积作为一个久远的理论基础，在深度学习得到发展，就是由DeepLab v2开始的,开启了当时空洞卷积的热潮

➢主要贡献:充分利用空洞卷积，可实现在不增加参数量的情况下有效扩大感受域，合并更多的上下文信息; DCNNs与CRF相结合，进一步优化网络效果;提出了ASPP模块
➢网络效果:ASPP增强了网络在多尺度下多类别分割时的鲁棒性，使用不同的采样比例与感受野提取输入特征，能在多个尺度上捕获目标与上下文信息
➢实验结果:在PASCAL VOC 2012数据集中取得了79.7%的MIOU;在其他数据集中也进行了充分实验

空洞空间卷积池化金字塔(atrous spatial pyramid pooling(ASPP))对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。

在这里插入图片描述

https://arxiv.org/abs/1606.00915

DeepLab v3

《Rethinking Atrous Convolution for Semantic Image Segmentation 》
作者：Liang-Chieh,George Papandreou
单位：谷歌公司
发表会议及时间：2017

Submission history
From: Liang-Chieh Chen [view email]
[v1] Sat, 17 Jun 2017 22:48:57 UTC (5,821 KB)
[v2] Tue, 8 Aug 2017 23:21:29 UTC (5,822 KB)
[v3] Tue, 5 Dec 2017 18:06:21 UTC (6,767 KB)

https://arxiv.org/abs/1706.05587

在这里插入图片描述

DeepLab v3取消了CRF，同时又获得较大的提升，变成了较纯粹的深度网络

➢主要贡献:为了解决多尺度下的分割问题，本文设计了级联或并行的空洞卷积模块;扩充了ASPP模块
➢网络效果:网络没有经过DenseCRF后处理，也可得到不错的结果
➢实验结果:在PASCAL VOC 2012数据集中获得了与其他最新模型相当的性能

感受野与分辨率成一定的反比

一般我们希望想获得尽可能大的感受野的同时，也尽可能减少分辨率的损失

DeepLab v3+

《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation 》
作者：Liang-Chieh,George Papandreou
单位：谷歌公司
发表会议及时间：ECCV 2018

和编解码（编码器和解码器）结构进行了融合，编解码结构也是用来解决边界不清晰问题

➢背景概述:深度神经网络通常采用ASPP模块或编解码结构进行语义分割
➢主要贡献:通过添加一个简单而有效的解码器模块开扩展DeepLab v3以优化分割结果
➢网络效果:该网络超过了以往方法的精度水平，可以更好地定位分割边界
➢实验结果:在PASCAL VOC 2012数据集和Cityscapes数据集中分别取得了89%和82.1%的MIOU

https://arxiv.org/abs/1802.02611

分辨率问题

连续的池化或下采样操作会导致图像的分辨率大幅度下降，从而损失了原始信息，且在上采样过程中难以恢复。因此，越来越多的网络都在试图减少分辨率的损失，比如使用空洞卷积，或者用步长为2的卷积操作代替池化。实验证明，诸如此类的替代方法的确是有效的。

所以有了减少分辨率损失的方向

减少分辨率的损失问题在图像分割领域所以有了举足轻重的地位。
补充：其实最近几年，高分辨率还原模型发展十分迅猛。可以多查查，多看看，说不定又有一个创新点。手动滑稽。

多尺度特征（融合问题）

通过设置不同参数的卷积层或池化层，提取到不同尺度的特征图。将这些特征图送入网络做融合，对于整个网络性能的提升很大。但是由于图像金字塔的多尺度输入，造成计算时保存了大量的梯度，从而导致对硬件的要求很高。多数论文是将网络进行多尺度训练，在测试阶段进行多尺度融合。如果网络遇到了瓶颈，可以考虑引入多尺度信息，有助于提高网络性能。

在这里插入图片描述