注:参考自深度之眼
一、DeepLab V1
1.DeepLab v1 特点:
(1)采用借用fully connected CRF对从DCNNs得到的分割结果进行细节上的refine,结合了深度卷积神经网络(DCNNs)和概率图模型(DenseCRFs)
(2)以VGG16网络为BackBone,得到 coarse score map后并插值到原图像大小
(3)使用空洞卷积Atrous convolution
2.为什么要引入空洞卷积:
(1)对于全局信息:
实际中需要全局特征,但卷积层的个数堆叠越多,感受野会越来越大,但是丢失的信息会越来越多。所以引入了空洞卷积。
(2)对于分辨率:
连续的池化或下采样操作会降低图片的分辨率,损失了原始信息,且在上采样过程中难以恢复。因此使用空洞卷积,或者用步长为2的卷积操作代替池化。
3.空洞卷积的优势:
(1)较大的感受野,特征提取精细
(2)比堆叠小卷积核使用的参数少
二、DeepLab V2
1.主要贡献:提出了ASPP模块
2.网络效果:ASPP增强了网络在多尺度下多类别分割时的鲁棒性,使用不同的采样比例与3.感受野提取输入特征,能在多个尺度上捕获目标与上下文信息
4.实验结果:在PASCAL VOC 2012数据集中取得了79.7%的MIOU;在其他数据集中也进行
了充分实验
5.特点:
(1)因为需要分割的目标具有多样的尺度大小,所以在SPP的基础上针对这个问题,引入ASPP空间金字塔结构(Atrous Spatial Pyramid Pooling)
SPP结构:
ASPP结构:
(2)以ResNet为BackBone
(3)由于DCNN网络对目标边界的分割准确度不高。文章引入全连接条件随机场(fully-
connected Conditional Random Field,CRF)使得分割边界的定位更加准确。
三、DeepLab V3
1.主要贡献:
对ASPP进行了改进,ASPP由由不同采样率的空洞卷积和BN层组成,并以串行或并行的方式布局模块 ,来获取更大的感受野从而获取多尺度信息
2.网络效果:网络没有经过DenseCRF后处理,也可得到不错的结果
3.实验结果:在PASCAL VOC 2012数据集中获得了与其他最新模型相当的性能
4.特点:
(1)对ASPP进行了改进,ASPP由由不同采样率的空洞卷积和BN层组成,并以串行或并行的方式布局模块 ,来获取更大的感受野从而获取多尺度信息
(2)讨论了一个重要问题:使用大采样率的3×3的空洞卷积,因为图像边界响应无法捕捉远
距离信息(小目标),会退化为1×1的卷积, 我们建议将图像级特征融合到ASPP模块中
(3)没有经过DenseCRF后处理
四、DeepLab V3+
1.主要贡献:
(1)提出了一种编码器-解码器结构,采用DeepLab v3作为encoder,添加decoder得到新的模型
(2)将Xception模型应用于分割任务,模型中广泛使用深度可分离卷积
2.实验结果:在PASCAL VOC 2012数据集和Cityscapes数据集中分别取得了89%和82.1%
的MIOU
3.特点:
编码器:
(1)以ResNet或Xception为主网络,使用DeepLab v3作为编码器结构,输出与输入尺寸之比为16(output_stride = 16)
注:使用Xception作为编码器时,DeepLab v3+对Xception进行了微调:
(a)更深的Xception结构,原始middle flow迭代8次,微调后迭代16次
(b)所有max pooling结构被stride=2的深度可分离卷积替代
(c)每个3x3的depthwise convolution后都跟BN和Relu
(2)ASPP:一个1×1卷积 + 三个3×3卷积 (rate = {6, 12, 18}) + 全局平均池化
解码器:
(1)先把encoder的结果上采样4倍,然后与编码器中相对应尺寸的特征图进行拼接融合,再进行3x3的卷积,最后上采样4倍得到最终结果
(2)在融合低层次信息前,先进行1x1的卷积,目的是降低通道数
4.结构
五、DeepLab系列的对比: