DeepLab 系列论文（上）

小刘要努力

已于 2022-06-18 23:05:01 修改

阅读量509

点赞数

分类专栏：图像分割文章标签：深度学习计算机视觉人工智能

于 2022-06-18 22:53:50 首次发布

本文链接：https://blog.csdn.net/qq_43239577/article/details/125351855

版权

图像分割专栏收录该内容

2 篇文章 0 订阅

订阅专栏

总体背景：在DCNN中主要存在以下三个问题：
（1）池化或者下采样操作会导致图像分辨率下降，从而损失图片信息；
（2）空间不敏感性（不变性）
（3）存在多个尺度对象

DeepLab V1

主要的创新点是：
（1）用空洞卷积解决图像分辨率下降的问题
（2）用条件随机场（CRF）解决了边界分割不精确的问题。
条件随机场不了解，所以不过多描述。

空洞卷积

在这里插入图片描述
（1）左图是普通卷积，此时的dilate reate=1，卷积核的感受野是3x3
（2）中间图的dilate rate=2，卷积核的感受野为7x7
（3）右图是rate=4的空洞卷积，卷积核的感受野为15x15

感受野计算： $RF_l+1=RF_l+(kernel .size-1)*stride$
空洞率对应卷积核尺寸计算： $k_{new}=k_{ori}+(k_{ori}-1)(rate-1)$

DeepLab V1以VGG16为backbone，并对其做出了以下改变：
（1）将fc层改成了卷积层；
（2）把最后两个池化层的步长由2改为1；
（3）将最后3个卷积层（conv5_1,conv5_2,conv5_3)的空洞率（dilate rate）设为2，且第一个全连接层的空洞率设为4（目的：保持感受野）
具体如下图所示
在这里插入图片描述

DeepLab V2

相较于DeepLab v1，DeepLab v2提出了多孔空间金字塔池化（ASPP），并且以ResNet作为backbone。

SPP模块（空间金字塔池化）

论文：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
SPPNet提出的初衷是为了解决CNN对图片输入尺寸的限制。由于全连接层的存在，与之相连的最后一个卷积层的输出特征需要固定的尺寸，因此要求输入图片的尺寸也要固定。常用的方法就是对图片进行裁剪或者变形，但是这两种方法会导致图片信息确实或变形影响识别精确度。
SPP模块

SPP模块

由图可见con5得到的特征图进行SPP层，进行不同尺度的池化即图中蓝色，青绿，银灰的窗口，蓝色窗口池化核为4x4，将特征图分成了16个块；青绿色窗口池化核为2 x 2 , 将特征图分成了4个块，银灰窗口池化核为1x1，将特征图分成了1个块，最后将不同尺度得到的特征拼接得到固定长度的特征向量，送入全连接层进行后续操作。