《DeepLab v2》论文笔记

本文详细解读了《DeepLab v2》论文,重点介绍了使用ResNet网络基础上的改进,如膨胀卷积、Atrous Spatial Pyramid Pooling (ASPP) 和全连接条件随机场(CRF)在多尺度语义分割任务中的应用,以及它们如何解决特征尺寸减小、目标尺度多样性和平移不变性问题。实验表明,这些方法在VOC-2012数据集上取得了79.7%的IoU。
摘要由CSDN通过智能技术生成

论文名称:《DeepLab v2:Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs》

1. 概述

导读:这篇文章是在DeepLab v1的基础上改进而来的,基础网络略有不同v2版本中使用的是ResNet网络,而v1中是VGG网络。除此之外主要的改进主要体现为如下几点:
1)强调具有上采样filter的卷积与膨胀卷积在密集预测任务中是很有用的工具。膨胀卷积可以准确控制深度神经网络中的特征响应,同时可以在不增加参数与计算量的前提下提升感受野;
2)提出Atrous Spatial Pyramid Pooling(ASPP)网络增强在多尺度下多类别分割时的鲁棒性,使用不同的采样比例与感受野上提取输入的特征,能在多个尺度上捕获目标与上下文信息;
3)通过图模型(fully connected Conditional Random Field,CRF(DenseCRF))来精准确定分割目标的边界;
该方法在VOC-2012数据集上IoU达到了79.7%

文中认为使用深度CNN网络进行语义分割所面临的问题与对应的解决办法:

  • 1)尺寸减小的特征图。文章通过去掉最后的几个几个下采样池化提高了卷积特征的大小,并且通过引入膨胀卷积在没有增加参数与计算量情况下增大感受野。
  • 2)需要分割的目标具有多样的尺度大小。针对这个问题,文章参考了空间金字塔池化的思想,这里使用不同比例的膨胀卷积构造“空间金字塔结构”(Atrous Spatial Pyramid Pooling,ASPP)。
  • 3)由于深度CNN网络具有平移不变性影响分割准确性。文章引入全连接条件随机场(fully-connected Conditional Random Field,CRF)使得分割边界的定位更加准确,从而解决该问题。

2. 网络设计

2.1 网络结构

下图展示的是文章使用方法运算流程,整体的流程与v1的相差不大。在卷积网络、特征池化与CRF上做了一些改进。
在这里插入图片描述

2.2 膨胀卷积

文章采用了模块化的膨胀卷积层,下面是膨胀卷积与普通卷积的对比:
在这里插入图片描述
膨胀卷积与普通卷积的卷积结果对比:
在这里插入图片描述

2.3 使用ASSP从多尺度角度表征图像

为了适应分割目标中不同的大小的目标文章提出了两种解决办法:

  • 1)这里变化输入图像的尺寸构造图像金字塔,使用相同的CNN网络去生成这些图的特征,这些特征恢复到原分辨率之后按位取最大值融合。使用该方法确实能够提升分割的性能,但是带来较大计算量开销;
  • 2)上面的方法计算开销较大,为了在多尺度上更好分割目标,这里就在一个固定的特征图上是用不同ratio的膨胀卷积并行地去提取特征,其结构见下图所示:
    在这里插入图片描述

2.4 引入Fully-Connected CRF

原始CNN网络的输出见图5的第二列所示,可以看到该分割的结果非常粗糙,这是由于CNN网络的平移不变性导致的边界定位精度低。
在这里插入图片描述
在之前的v1版本中也使用了CRF,其形式差不太多,能够更加精准地确定目标的边界,这里采用的能量函数是:
E ( x ) = ∑ i θ i ( x i ) + ∑ i j θ i j ( x i , x j ) E(x)=\sum_i \theta_i(x_i)+\sum_{ij}\theta_{ij}(x_i,x_j) E(x)=iθi(xi)+

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值