DeeperLab: Single-Shot Image Parser 详解

DeeperLab是MIT,Google和Berkeley联合提出的全景图像解析方法,通过单一模型同时处理语义和实例分割,实现高效分析。文章介绍了网络结构,包括编码模块、解码模块和预测头,并提出空间到深度和深度到空间变换,减少了内存占用。实验表明,DeeperLab在Mapillary Vistas数据集上实现了31.95%的验证PQ和55.26%的验证PC,同时具备3fps的处理速度。
摘要由CSDN通过智能技术生成

论文链接:

代码链接:https://github.com/Ixuanzhang/models/tree/master/research/deeplab/evaluation

文章来自MIT,Google和Berkeley联合出品,研究的内容是全景图像的快速高效分割和解析任务。

摘要

        本文提出了一种bottoom-up,single-shot的全景图像分析方法。全景图像分析包含"stuff"形式(类别)的语义分割及“thing”形式(区别不同个体)的实例分割。目前,全景图像分析的经典方法是由语义分割任务及实例分割任务的独立的模块组成,同时其需要进行多次inference操作。与之相反的是,本文提出了用相对简单的全卷积的方式对图像进行场景分析。以single-shot的方式同时处理语义分割及实例分割两种任务,从而得到一个处理速度较快的流线型模型。针对定量分析,本文使用了基于实例的全景质量-PQ度量及基于区域建议覆盖分析-PC度量,其可以更好的捕捉“stuff”类别及更大目标实例的图像分析质量。基于Mapillary Vistas 数据集进行实验,本文的单一模型基于GPU实现了31.95%(val)及31.6%(test)的PQ及55.26%(val)的PC。运行速度为3fps或者接近实时速度22.6fps,但准确率会有所下降。

1  简介

    (1)DeeperLab简介

                                          

  • DeeperLab基于single-pass的全卷积网络来产生语义及实例分割的预测mask。最后通过一个快速的算法将预测结果进行融合得到解析的结果最后通过一个快速的算法将预测结果进行融合得到解析的结果。
  • DeeperLab的运行时间几乎与检测到对象数目无关,这使得 DeeperLab更适合复杂场景的图像解析。
  • 使用 PQ 和 PC 指标作为质量评估的标准。
  • 实验数据集:Mapillary Vistas dataset(包含分辨率高达4000*6000的图像)、Cityscapes、Pascal VOC 2012、 COCO

(2)文章主要贡献

  • 提出一些用于高效图像解析的神经网络设计策略,显著降低高分辨率输入的内存占用情况。这些创新包括深度可分离卷积的扩展应用使用带两层预测头的共享解码输出增大内核大小而不是使用更深的网络,使用空间到深度和深度到空间的变换而不是上采样操作,采用困难样本挖掘策略,详细的消融研究显示了实践中这些策略的影响;
  • 基于以上设计策略,提出了一种一次性高效,自底向上的图像解析网络,DeeperLab。在Mapillary Vistas数据集上,所提出的基本模型Xception-71达到31.95%的验证PQ、31.6%的测试PQ以及55.26%的验证PC,GPU上每秒可以处理3帧图像;加宽版本的MobileNetV2基础模型能够在CPU上达到接近实时的性能(22.61fps),准确率稍有下降;
  • 提出一种称为Parsing Covering的指标替代用于评估基于区域远景的图像解析结果。

2   相关工作

       Image parsing:Imae parsing的作用是将图像分解为连续的视觉模式,像纹理及检测目标等,其涵盖了分割,检测,识别等任务。首次使用基于贝叶斯框架进行Image parsing,后来基于AND-OR图, Exemplars及条件随机场等方法进行全场景理解任务。早期这些任务的评估标准是独立的,比如,检测有检测的评估标准,分割有分割的评估标准。随着基于实例的全景质量(PQ)评估引入多个benchmarks中,全景分割越来越受到关注。

        语义分割:大多数state-of-art的分割模型在基于FCN的基础上进行一些创新性改进得到的。比如,上下文信息对像素级的标记十分重要,因此,有些工作使用图像金字塔对不同尺寸的输入图像进行编码操作。PSPNet提出了基于不同网格尺寸的图像金字塔池化结构,DeepLab提出了使用不同rate的并行的空洞卷积结构(ASPP)从而可以有效的利用上下文信息。另一个有效的方法是使用encoder-decoder结构。在encoder阶段得到图像的上下文信息,而在解码阶段对边界进行恢复。DeeperLab利用FCN,ASPP,encoder-decoder等结构来最大化image parsing的准确率。

        实例分割:当前实例分割的方法可以归类为top-down及bottom-up的方法。top-down的方法通过增强state-of-the-art检测器得到的框获得instance masks。其中,FCIS使用位置敏感性score maps。Mask R-CNN基于FPN的基础上进行搭建,在Faster R-CNN上增加了另一个分割分支,取得较好的效果。另一方面,bottom-up的方法采用两阶段的处理过程,由分割模型得到的像素级预测按照实例预测的方式进行聚合。PersonLab预测人体

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值