《DeepLab v1:semantic image segmentation with deep convolutional nets and fully connected CRFs》论文笔记

1. 概述

导读:文章指出仅仅使用DCNNs网络的最后一层实现精确地语义分割是不足够的。为此,本篇文章的工作将DCNNs与概率图模型来共同解决分割精度的问题。文章新提出的这个方法在定位分割的边界上超过了之前的方法(当时),在VOC 2012数据集上取得了71.6%的IOU,GPU上速度为8 FPS(不含CRF)。

相比于传统的视觉算法(SIFT或HOG),DCNNs以其end-to-end方式获得了很好的效果。这样的成功部分可以归功于DCNN对图像转换的平移不变性(invariance),这根本是源于重复的池化和下采样组合层。平移不变性增强了对数据分层抽象的能力,但同时可能会阻碍低级(low-level)视觉任务,例如姿态估计、语义分割等,在这些任务中我们倾向于精确的定位而不是抽象的空间关系。

DCNN在图像标记任务中存在两个技术障碍:

  • 1)信号下采样,这是由于CNN网络中的池化操作以及下采样带来的分辨率下降问题,这个过程中会丢失掉很多细节信息,DeepLab v1中使用Atrous卷积增大感受野,获取尽可能多的上下文信息;
  • 2)空间不敏感(invariance),分类器获取以对象中心的决策是需要空间变换的不变性,这天然的限制了DCNN的定位精度,DeepLab采用完全连接的条件随机场(DenseCRF)提高模型捕获细节的能力。

这篇文章提出的新方法Deeplab v1具有如下的特点:

  • 1)快速,由于孔洞卷积的好处使得模型的帧率为8FPS,然而使用Mean Field方法inference全连接CRF需要0.5s;
  • 2)精度,文章提出的新方法在VOC数据集上的性能超过第二名7.2%;
  • 3)网络简洁,文中的方法将DCNNs与CRF结合去获得最后的分割结果;

2. 网路设计

2.1 CNN网络部分设计

这里使用的是VGG16作为基础网络,并且将其中的全连接层替换为了卷积层,在图像的原始分辨率上产生非常稀疏的计算检测分数(stride=32),为了以更密集(步幅8)的计算得分,我们在最后的两个最大池化层不下采样(padding到原大小),再通过2或4的采样率的空洞卷积对特征图做采样扩大感受野,缩小步幅。下面这幅图是在以为上使用Atrous方法的运算流程:
在这里插入图片描述
这种带孔的采样又称Atrous算法,可以稀疏的采样底层特征映射,该方法具有通常性,并且可以使用任何采样率计算密集的特征映射。在VGG16中使用不同采样率的空洞卷积,可以让模型再密集的计算时,明确控制网络的感受野。保证DCNN的预测图可靠的预测图像中物体的位置。

训练时将预训练的VGG16的权重做fine-tune,损失函数取是输出的特征图与ground truth下采样8倍做交叉熵和;测试时取输出图双线性上采样8倍得到结果。但DCNN的预测物体的位置是粗略的,没有确切的轮廓。在卷积网络中,因为有多个最大池化层和下采样的重复组合层使得模型的具有平移不变性,我们在其输出的high-level的基础上做定位是比较难的。这需要做分类精度和定位精度之间是有一个自然的折中。

解决这个问题的工作,主要分为两个方向:

  • 1)第一种是利用卷积网络中多个层次的信息
  • 2)第二种是采样超像素表示,实质上是将定位任务交给低级的分割方法

DeepLab v1是结合了DCNNs的识别能力和全连接的CRF的细粒度定位精度,寻求一个结合的方法,结果证明能够产生准确的语义分割结果。

2.2 CRF运用于语义分割

在这里插入图片描述
上图展示了CRF使用在语义分割上面的结果,随着迭代的进行分割的效果更佳精细。

对于每个像素位置 i i i具有隐变量 x i x_i xi(这里隐变量就是像素的真实类别标签,如果预测结果有21类,则( i ∈ 1 , 2 , … , 21 ) i\in 1,2,\dots,21) i1,2,,21)),还有对应的观测值 y i y_i yi(即像素点对应的颜色值)。以像素为节点,像素与像素间的关系作为边,构成了一个条件随机场(CRF)。通过观测变量 y i y_i yi来推测像素位置 i i i对应的类别标签 x i x_i xi。条件随机场示意图如下
在这里插入图片描述
条件随机场符合吉布斯分布( x x x是上面的观测值,下面省略全局观测 I I I):
P ( x ∣ I ) = 1 Z e x p ( − E ( x ∣ I ) ) P(x|I)=\frac{1}{Z}exp(-E(x|I)) P(xI)=Z1exp(E(xI))
全连接的CRF模型使用的能量函数 E ( x ) E(x) E(x)为:
E ( x ) = ∑ i θ i ( x i ) + ∑ i j θ i j ( x i , x j ) E(x)=\sum_i \theta_i(x_i)+\sum_{ij}\theta_{ij}(x_i,x_j) E(x)=iθi</

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值