[论文笔记](CVPR2019) RVOS: End-to-End Recurrent Network for Video Object Segmentation

本文提出了一种名为RVOS的循环网络,用于视频多目标分割,尤其适用于zero-shot和one-shot场景。该模型能进行端对端训练,结合空间和时间域的循环,无需后处理。在DAVIS-2017和YouTube-VOS基准测试中,它在zero-shot视频目标分割方面表现出色,并在one-shot任务中与最优方法相当。
摘要由CSDN通过智能技术生成

在这里插入图片描述
论文链接

摘要

多目标视频目标分割是一项具有挑战的任务,尤其对于zero-shot,即在没有给出视频初始帧的目标掩模的情况下分割处整个序列的目标。这篇论文提出了循环网络(Recurrent Network)以进行视频多目标分割(RVOS),该网络可进行端对端训练。该模型将循环应用在两个不同的域中:(1)空间域:找出一帧图像中不同的目标实例;(2)时间域:保持被分割对象在时间上的相关性。本文实验:(1)zero-shot视频目标分割,在DAVIS-2017 和YouTube-VOS benchmarks上所报道的结果中排名第一。(2)one-shot 视频目标分割,将前一时间的mask作为输入,利用循环模型进行处理,在YouTube-VOS上结果与最优结果相当,在DAVIS-2017上,优于之前所有不利用在线学习的方法。本文模型推理速度快于之前的方法,在P100 GPU上达到44ms/frame.

1 引言

视频目标分割的目标: 将给定视频序列的前景从背景中分割出来。众多benchmarks的出现未视频图像分割提供了标注的数据集和标准的评估方法。近年公布的benchmarks解决了多目标分割问题,并提供了更大的可用的数据集和更多的挑战任务。
目前视频图像分割分三类: 1)将每一帧图像独立处理,忽略了时间维度,没有考虑相邻帧之间的连贯性。2)考虑时间维度–通过光流估计实现时间维度信息的利用;在视频序列中传播预测的标签图像。3)利用时空特征进行模型训练:A.基于RNN,对视频序列中目标的时空演化进行编码;缺点:整个流程依赖光流,无法进行完全端对端训练;B.基于RNN的编码-解码结构,与本文流程类似,二者主要的不同在于,该方法只能端对端地处理单个目标;因此,需要一个对视频中的每个目标单独进行前向传播。第三类列举的方法都没有用一个统一的方式去考虑多目标的分割。
本文: 提出如下网络框架结构:
在这里插入图片描述该框架可解决以下问题:单目标分割,多目标分割,zero-shot,one-shot.
该框架以 RSIS 为基础,RSIS用循环模型再每一次循环中都为图像中的每一个目标实例预测一个mask。由于RNN的存储功能,网络可学习并预测每个目标的mask,网络的输出不需要进行任何的后处理。在本文视频目标分割模型中,将循环附加到空间域,预测视频序列每一帧的实例。
实际上,本文框架在时间和空间上都包含循环,空间上针对单个帧中不同实例,强制使每一帧的实例预测都遵循同一个顺序,时间上指在不同帧之间网络可以自然地匹配不同帧之间的实例。基于以上两点,本文框架可以实现完全的端对端模式,在不进行任何后处理的情况下实现视频序列的多目标分割。
本文框架完成的任务: 1)zero-shot视频分割(无监督:在无初始mask的情况下分割整个序列,量化展示DAVIS-2019和YouTube-VOS上的分割结果);2)one-shot视频分割(半监督:将前一步的预测结果输入循环结构)。

主要贡献:
1)第一次提出完全端对端的视频图像多目标分割框架,不需要进行任何后处理;
2)可进行zero-shot,one-shot分割,第一次在DAVIS-2019和YouTube-VOS上量化了zero-shot的分割结果;
3)性能优于之前不进行在线学习的方法;不需要在测试序列上进行finetune便可获得较好的结果;速度最快。

2 相关工作

2.1 数据集

Berkeley Video Segmentation Dataset (2011)
SegTrack (2013)
Freiburg Berkeley Motion Segmentation Dataset (2014)
DAVIS (2016-2017) --提供的标签更准确和dense
YouTube VOS (2018) --目前提供标注视频最多的数据集

2.2 视频目标分割

可分为两类:
1)不对时间域建模: 通过在线学习进行one-shot视频图像分割,即标注视频序列的第一帧对模型finetune,并进行剩余帧目标的分割。在此基础上,出现的方法:
A. 利用附加的高置信预测对模型进行额外的在线更新;B. 将不同实例目标分割作为先验与输出分割融合;C.关注视频图像数据增强;D.跟踪目标以获得分割目标的ROI;E. 基于元学习,根据第一帧的目标mask快速更新网络。
2)对时间域建模: 不完全端对端,需要其他任务上的预训练模型:
A. CNN特征+光流;B. 用前一帧预测mask指导下一帧mask的预测;C. 利用时空特征。

本文: 利用时间域并完全端对端
相似的工作:编码-解码循环网络结构(RSIS):利用Convolutional LSTMs进行序列学习。
本文与其的不同之处:包含空间循环,待分割目标的分割会考虑到同一帧前一分割目标的分割结果,用单一的前向传播即可实现多目标分割。

2.3 one/zero-shot 视频目标分割

one-shot: 利用一个标记帧(通常为视频的第一帧)顺次预测剩余帧的分割结果。因为其给定了初始帧的mask,通常one-shot的结果优于zero-shot。这类方法依赖于在线学习,例如,通过初始帧及其对应的mask更新权重。在线学习可以得到更优的结果,但也会耗费更多的计算资源。
本文:不需要任何形式的在线学习和后处理。
zero-shot: 也是无监督方法,不需要对视频序列的目标进行预分割。关注目标显著性,与光流的双流网络联合训练,motion估计等。
本文:可进行one-shot和zero-shot分割任务,对于one-shot,本文并没有用第一帧的mask更新网络;对于zero-shot,不需要预训练,检测或者依赖于目标proposals。本文可进行完全的端对端训练,并且不需要在其他任务上预训练的其他模型。

2.4 端对端

1)基于帧端对端训练,实现多目标分割;
2)在时间域进行端对端训练,但只能解决单目标分割,每一个目标都需要一个前向传播的通路,需要后处理对这些实例进行融合;
本文方法是第一个实现完全端对端训练,并且不需要进行任何后处理的视频分割方法。

3 方法

基于encoder-decoder结构,主要进行两项视频目标分割任务:1)one-shot:输入-视频序列的一组RGB图像+初始帧mask,输出视频序列各目标的mask;2)zero-shot:输入-视频序列的一组RGB图像,输出各目标的分割结果,但是zero-shot在进行分割时,并不知道待分割目标是什么。

3.1 编码

基础框架:
RSIS【26】,具体结构如下图左侧蓝色部分所示:
在这里插入图片描述
本文不同结构:
将前一帧的mask作为当前帧输出特征的一个附加的channel;而RSIS没有附加的channel;这个结构主要是针对给出第一帧mask的one-shot任务。
encoder输出的第t帧不同分辨率特征表示为 f t = { f t = { f t , 1 , f t , 2 , . . . , f t , k } f_t = \lbrace f_t = \lbrace f_{t,1},f_{t,2},...,f_{t,k} \rbrace ft={ ft={ ft,1,ft,2,...,ft,k}

3.2 解码

figure 2右侧为单个帧,单个step空间recurrent的decoder结构,该decoder为ConvLSTM的分层循环架构,可以利用不同分辨率的输入特征 f t = { f t , 1 , f t , 2 , . . . , f t , k } f_t = \lbrace f_{t,1},f_{t,2},...,f_{t,k} \rbrace ft={ ft,1,ft,2,...,ft,k} ,decoder的输出是该帧不同目标的预测结果 S t =

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值