《DeepLab v2》论文笔记

最新推荐文章于 2023-07-28 13:44:06 发布

m_buddy

最新推荐文章于 2023-07-28 13:44:06 发布

阅读量895

点赞数 1

分类专栏：图像&视频分割文章标签： DeepLab v2

本文链接：https://blog.csdn.net/m_buddy/article/details/90708760

版权

本文详细解读了《DeepLab v2》论文，重点介绍了使用ResNet网络基础上的改进，如膨胀卷积、Atrous Spatial Pyramid Pooling (ASPP) 和全连接条件随机场(CRF)在多尺度语义分割任务中的应用，以及它们如何解决特征尺寸减小、目标尺度多样性和平移不变性问题。实验表明，这些方法在VOC-2012数据集上取得了79.7%的IoU。

摘要由CSDN通过智能技术生成

论文名称：《DeepLab v2：Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs》

1. 概述

导读：这篇文章是在DeepLab v1的基础上改进而来的，基础网络略有不同v2版本中使用的是ResNet网络，而v1中是VGG网络。除此之外主要的改进主要体现为如下几点：
1）强调具有上采样filter的卷积与膨胀卷积在密集预测任务中是很有用的工具。膨胀卷积可以准确控制深度神经网络中的特征响应，同时可以在不增加参数与计算量的前提下提升感受野；
2）提出Atrous Spatial Pyramid Pooling（ASPP）网络增强在多尺度下多类别分割时的鲁棒性，使用不同的采样比例与感受野上提取输入的特征，能在多个尺度上捕获目标与上下文信息；
3）通过图模型（fully connected Conditional Random Field，CRF（DenseCRF））来精准确定分割目标的边界；
该方法在VOC-2012数据集上IoU达到了79.7%

文中认为使用深度CNN网络进行语义分割所面临的问题与对应的解决办法：

1）尺寸减小的特征图。文章通过去掉最后的几个几个下采样池化提高了卷积特征的大小，并且通过引入膨胀卷积在没有增加参数与计算量情况下增大感受野。
2）需要分割的目标具有多样的尺度大小。针对这个问题，文章参考了空间金字塔池化的思想，这里使用不同比例的膨胀卷积构造“空间金字塔结构”（Atrous Spatial Pyramid Pooling，ASPP）。
3）由于深度CNN网络具有平移不变性影响分割准确性。文章引入全连接条件随机场（fully-connected Conditional Random Field，CRF）使得分割边界的定位更加准确，从而解决该问题。

2. 网络设计

2.1 网络结构

下图展示的是文章使用方法运算流程，整体的流程与v1的相差不大。在卷积网络、特征池化与CRF上做了一些改进。
在这里插入图片描述

2.2 膨胀卷积

文章采用了模块化的膨胀卷积层，下面是膨胀卷积与普通卷积的对比：
在这里插入图片描述
膨胀卷积与普通卷积的卷积结果对比：

2.3 使用ASSP从多尺度角度表征图像

为了适应分割目标中不同的大小的目标文章提出了两种解决办法：

1）这里变化输入图像的尺寸构造图像金字塔，使用相同的CNN网络去生成这些图的特征，这些特征恢复到原分辨率之后按位取最大值融合。使用该方法确实能够提升分割的性能，但是带来较大计算量开销；
2）上面的方法计算开销较大，为了在多尺度上更好分割目标，这里就在一个固定的特征图上是用不同ratio的膨胀卷积并行地去提取特征，其结构见下图所示：

2.4 引入Fully-Connected CRF

原始CNN网络的输出见图5的第二列所示，可以看到该分割的结果非常粗糙，这是由于CNN网络的平移不变性导致的边界定位精度低。
在这里插入图片描述
在之前的v1版本中也使用了CRF，其形式差不太多，能够更加精准地确定目标的边界，这里采用的能量函数是：
$E(x)=\sum_i \theta_i(x_i)+\sum_{ij}\theta_{ij}(x_i,x_j)$