DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记

本文是DeepLab论文的阅读笔记,重点介绍了 atrous convolution 在语义图像分割中的应用,以及如何通过 atrous spatial pyramid pooling 处理多尺度物体,利用 fully connected CRFs 提升边界定位精度。DeepLab模型结合了深度卷积神经网络和条件随机场,旨在解决密集预测任务中的挑战,例如特征分辨率降低和定位精度问题。
摘要由CSDN通过智能技术生成

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs –阅读笔记

论文来源: IEEE Transactions on Pattern Analysis and Machine Intelligence
论文链接:https://export.arxiv.org/pdf/1606.00915

Abstract

本文用深度学习处理语义图像分割的任务,并且通过实验证明有三个主要贡献具有实质的实用价值。

  1. 首先,我们强调使用上采样滤波器进行卷积,或者将“atrous convolution”作为密集预测任务中的强大工具。 Atrous卷积允许我们明确地控制在深卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以并入较大的上下文,而不增加参数的数量或计算量。
  2. 第二,我们提出atrous spatial pyramid pooling(ASPP)来分割多个尺度的对象。 ASPP使用多个采样率和有效视场的滤波器来探测进入的卷积特征层,从而捕获多个尺度的对象以及图像上下文。
  3. 第三,通过组合DCNN和概率图形模型的方法,提高对象边界的本地化。 DCNN中通常部署的最大汇集和下采样的组合实现了不变性,但对定位精度有一定的限制。我们通过将最终DCNN层的响应与完全连接的条件随机场(Conditional Random FieldC,RF)进行组合来克服这一点,这在定性和定量上都显示出提高定位性能。

Introduction

DCNNs(Deep Convolutional Neural Networks)对局部图像变换存在内在不变性(built-in invariance),因此可以学习越来越多的数据表达。不变性意味着分类,对如语义分割等密集预测任务存在如下挑战:

  1. 降低特征分辨率;
  2. 多尺度物体的存在;
  3. 由于DCNN不变性导致的定位精度降低。

挑战1的解决方案:

  • 从DCNN的最后几个最大合并层中去除下采样算子,而是在随后的卷积层中对滤波器进行上采样,导致以较高采样率计算的特征图。
  • 通过一个组合的atrous卷积来恢复全分辨率特征图,该卷积更加密集地计算特征图,随后是对原始图像大小的特征响应的简单双线性插值。

挑战2的解决方案:

  • 一个标准的处理方法就是将图像转换成图像,然后聚集特征或分数图。
  • 作者提出一个由空间金字塔池(spatial
    pyramid pooling)衍生的方案:在乘法优先级到卷积的情况下对给定特征层进行重采样。这种方法用具有互补有效视角的多个滤波器来阻止原始图像,从而捕获对象作为多尺度的有用图像上下文。有效地使用具有不同采样率的多个并行无穷大卷积层来实现该映射,称之为“atrous space pyramid pooling”(ASPP)技术。

挑战3的解决方案:

  • 一个方法是在计算最终分割结果时,使用跳过层从多个网络层提取“超列(hyper-column)”特征。
  • 我们通过使用完全连接的条件随机场(CRF)来提高我们的模型捕获细节的能力。 CRFs广泛用于语义分割,将通过多方式分类与由像素和边缘的局部相互作用捕获的低级信息或超像素组合的类得分(score)。

作者提出的DeepLab模型框架如下:
这里写图片描述

的DeepLab系统的三个主要优点是:

  1. 速度;
  2. 准确性;
  3. 简单性:仅由DCNN和CRF的级联组成。

作者的模型和代码

  • 基于DCNN的第一系列语义分割系统通常采用级联的自下而上的图像分割,其次是基于DCNN的区域分类。虽然这些方法可以通过良好细分的尖锐边界获益,但它们不能从任何错误中恢复。
  • 第二系列系统依赖于使用卷积计算的DCNN特征进行密集图像标注,并将它们与独立获得的分割结合在一起。这些方法采用与DCNN分类器结果分离的分割算法,使得有能产生过早的决策。
  • 第三系列使用DCNN直接提供密集的类别级别的像素标签,这使得甚至可以完全丢弃分割。

DeepLab系统的关键因素:Atrous卷积有效的密集特征提取和通过全连接CRF对 raw DCNN scores 改进。

Methods

Atrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

Atrous concolution 允许以任何所需的分辨率计算任何层的响应。

首先考虑一维信号:

  • 输入一维信号: x[i]
  • 具有长度 k 的滤波器: w[k]
  • 对输入信号进行采样的步幅: r
  • atrous 卷积输出: y[i]

y[i]=k=
  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值