DeepLab系列
卷积网络的平移不变性,随着神经网络的层数的加深,会减弱
V1:CRF
V2:使用空洞卷积扩大感受野,条件随机场细化边界;,加入多尺度下融合特征(Atrous Spatial Pyramid Pooling,ASPP ) ;
V3:使用image-level feature代替CRF
补充:ICLR(深度学习方向顶级会议)
全称: International Conference on Learning Representations
国际学习表征会议(深度学习的顶级会议),2013年创办 创办人: Yoshua Bengio & Yann LeCun
ICLR介绍:http://finance.jrj.com.cn/tech/2017/04/201 53122355479.shtml
Yann LeCun介绍: LeNet- 5作者,MNIST数据集制作者 https://blog.csdn.net/hacker_long/article/details/89609367
DeepLab v1
《DeepLab:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》
作者:Liang-Chieh,George Papandreou
单位:谷歌公司
发表会议及时间:ICLR 2015
https://arxiv.org/abs/1606.00915
CRF(Conditional Random Field—条件随机场):解决边界不精确问题
➢背景概述: DCNNs的最后一层不足以进行精确分割目标
➢主要贡献:本文将深度卷积神经网络和CRF相结合,克服了深度网络的局部化特性
➢网络效果:该网络超过了以往方法的精度水平,可以更好地定位分割边界
➢实验结果:在PASCAL VOC 2012数据集中取得了71.6%的I0U;在正常GPU上可达到每秒8帧的处理速度
DeepLab v2
《DeepLab:Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs》
作者:Liang-Chieh,George Papandreou
单位:谷歌公司
发表会议及时间:TPAMI 2017
空洞卷积作为一个久远的理论基础,在深度学习得到发展,就是由DeepLab v2开始的,开启了当时空洞卷积的热潮
➢主要贡献:充分利用空洞卷积,可实现在不增加参数量的情况下有效扩大感受域,合并更多的上下文信息; DCNNs与CRF相结合,进一步优化网络效果;提出了ASPP模块
➢网络效果:ASPP增强了网络在多尺度下多类别分割时的鲁棒性,使用不同的采样比例与感受野提取输入特征,能在多个尺度上捕获目标与上下文信息
➢实验结果:在PASCAL VOC 2012数据集中取得了79.7%的MIOU;在其他数据集中也进行了充分实验
空洞空间卷积池化金字塔(atrous spatial pyramid pooling(ASPP))对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文。
https://arxiv.org/abs/1606.00915
DeepLab v3
《Rethinking Atrous Convolution for Semantic Image Segmentation 》
作者:Liang-Chieh,George Papandreou
单位:谷歌公司
发表会议及时间:2017
Submission history
From: Liang-Chieh Chen [view email]
[v1] Sat, 17 Jun 2017 22:48:57 UTC (5,821 KB)
[v2] Tue, 8 Aug 2017 23:21:29 UTC (5,822 KB)
[v3] Tue, 5 Dec 2017 18:06:21 UTC (6,767 KB)
https://arxiv.org/abs/1706.05587
DeepLab v3取消了CRF,同时又获得较大的提升,变成了较纯粹的深度网络
➢主要贡献:为了解决多尺度下的分割问题,本文设计了级联或并行的空洞卷积模块;扩充了ASPP模块
➢网络效果:网络没有经过DenseCRF后处理,也可得到不错的结果
➢实验结果:在PASCAL VOC 2012数据集中获得了与其他最新模型相当的性能
感受野与分辨率成一定的反比
一般我们希望想获得尽可能大的感受野的同时,也尽可能减少分辨率的损失
DeepLab v3+
《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation 》
作者:Liang-Chieh,George Papandreou
单位:谷歌公司
发表会议及时间:ECCV 2018
和编解码(编码器和解码器)结构进行了融合,编解码结构也是用来解决边界不清晰问题
➢背景概述:深度神经网络通常采用ASPP模块或编解码结构进行语义分割
➢主要贡献:通过添加一个简单而有效的解码器模块开扩展DeepLab v3以优化分割结果
➢网络效果:该网络超过了以往方法的精度水平,可以更好地定位分割边界
➢实验结果:在PASCAL VOC 2012数据集和Cityscapes数据集中分别取得了89%和82.1%的MIOU
https://arxiv.org/abs/1802.02611
分辨率问题
- 连续的池化或下采样操作会导致图像的分辨率大幅度下降,从而损失了原始信息,且在上采样过程中难以恢复。因此,越来越多的网络都在试图减少分辨率的损失,比如使用空洞卷积,或者用步长为2的卷积操作代替池化。 实验证明,诸如此类的替代方法的确是有效的。
所以有了减少分辨率损失的方向
减少分辨率的损失问题在图像分割领域所以有了举足轻重的地位。
补充:其实最近几年,高分辨率还原模型发展十分迅猛。可以多查查,多看看,说不定又有一个创新点。手动滑稽。
多尺度特征(融合问题)
- 通过设置不同参数的卷积层或池化层,提取到不同尺度的特征图。将这些特征图送入网络做融合, 对于整个网络性能的提升很大。但是由于图像金字塔的多尺度输入,造成计算时保存了大量的梯度, 从而导致对硬件的要求很高。多数论文是将网络进 行多尺度训练,在测试阶段进行多尺度融合。如果网络遇到了瓶颈,可以考虑引入多尺度信息,有助于提高网络性能。
各种尺度的融合也需要经验指导,需要实验得出。
deplab系列的主要贡献:
- 参数同比减少,所以占比内存减小,速度快
- ResNet的引入, 越深层的网络准确率越高
- 连续卷积和池化不可避免的会带来分辨率降低,然而空洞卷积却可以在尽可能保证分辨率的情况下扩大视野
- ASPP的创举
一 论文导读
二 论文精读
三 代码实现