【视频显著性检测】 Flow Guided Recurrent Neural Encoder for Video Salient Object Detection【CVPR2018】【论文阅读】

本文提出光流引导的循环神经编码器(FGRNE),用于视频显著性检测。FGRNE利用光流信息增强特征的时间相关性,通过运动计算与更新、运动指导特征变化和时间一致性特征编码,提高视频显著性检测的准确性。实验表明,FGRNE在DAVIS和FBMS数据集上优于现有方法。
摘要由CSDN通过智能技术生成

基于光流指导循环神经编码器的视频显著性检测

摘要:

归功于深度卷积神经网络,图像显着性检测已经取得了显著进展,然而,扩展最先进的图像显著性检测器到视频仍然具有挑战性。挑战主要来自物体运动、相机的运动以及视频中对比度的突然变化。在本文中,我们提出了光流引导的循环神经编码器(flow guided recurrent neural encoder FGRNE),一种准确的端到端学习的视频显著对象检测框架。它通过利用光流方面的运动信息LSTM网络的顺序特征进化编码(sequential feature evolution encoding)来增强每帧特征的时间相关性。它可以被视为将任何基于FCN的静态显著性检测器扩展到视频显著性物体检测的通用框架。实验结果验证了FGRNE各部分的有效性,确认了我们提出的方法在DAVIS和FBMS公共基准上明显优于当前最先进的方法。

论文题目:Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

作者:Guanbin Li1 Yuan Xie1 Tianhao Wei2 Keze Wang1 Liang Lin1,3

单位:1Sun Yat-sen University 2Zhejiang University 3SenseTime Group Limited

论文链接

目录

摘要:

1. Introduction

2. Related Work

2.1 静态显著性

2.2 视频显著性

2.3 基于光流的运动估计

3. Flow Guided Recurrent Neural Encoder(光流引导的循环神经编码器)

3.1 Motion Computing and Updating(运动计算与更新)

3.2 Motion Guided Feature Warping(运动指导特征变化)

3.3 Temporal Coherence Feature Encoding(时间相干特征编码)

4. 实验结果

4.1 实验配置

4.1.1 数据集

4.1.2 评估标准

4.1.3 实验细节

4.2 同行比较

4.3 溶解实验

4.3.1 FGRNE的有效性

4.3.2 特征提取部分的敏感度

4.3.3 窗口大小敏感度

4.3.4 主体模型选择的敏感性

5. 与非监督方法的比较

6. 结论


1. Introduction

近几年,由于深度卷积神经网络的发展,静态显著性检测取得重大进步,但即使最好的静态显著性检测到动态检测时都无法维持视觉连续性和时间相关性。认知科学显示,对比度在静态时对显著性有很大影响,但动态时,物体的运动更加吸引人的注意力。这种时域信息以及被利用在显著性物体,其一使用的时图模型,例如将单帧的对比度特征信息或帧间梯度流图与启发式时空域模型的能量函数(可以理解为损失函数)相结合,以期望得到具有帧间一致性的显著图像,这种采用现成的模型进行启发式的预处理得到的低级特征,往往很难应对具有复杂语义对比度和物体运动的视频显著性问题;其二则直接将卷积神经网络应用到视频的显著性检测中,其往往将连续帧输入神经网络,这种简单的帧间整合的时空域模型,不能很好的刻画出视频帧间的动态连续性,且缺乏物体运动信息,不能保持运动连续性。【总:简单加入时域信息,以及简单用卷积网络来处理多帧,效果都不行】

本文提出光流指导的循环神经网络(FGRNE),这是一个端到端的学习框架,可以将任何静态显著性检测器扩展至动态显著检测。它通过利用光流方面的运动信息来引导特征变形LSTM网络的顺序特征进化编码来改进每帧的特征,以增强每帧特征的时间相关性,最后输出的特征图作为编码后的特征,会被输送到主网络进行显著性推断,此外我们的FGRNE模型还涉及另一个LSTM模块来改善具有大间隔的帧对(frame pair)的光流估计。我们的FGRNE模型包括三部分:运动计算与更新,光流指导特征变化以及进行时间相干特征编码的主网络。

本文主要有三点贡献:

  1. 引入了光流指导的循环神经编码器框架来提高各帧特征的时间相关性,能拓展静态显著性检测器用于视频显著性
  2. 整合光流网络评估每一帧的运动,更在特征变化中用于补偿物体的运动
  3. 利用ConvLSTM来进行顺序特征编码,可以捕捉对比度特征在时域的变化,而且是对特征变化的补充

2. Related Work

2.1 静态显著性

显著性物体检测可以分为基于低级特征的自底向上的方法和基于高级知识的自上而下的方法。最近几年深度卷积神经网络是主要的研究方向,该方向又可以分为基于区域的深度神经网络,以及端到端的全卷积神经网络。基于区域的方法将图像分成多个区域,然后对每一个区域进行独立的特征提取以及显著性推断,冗余的特征提取和存储造成时间和空间的大量花费。因此需要端对端的方法,可以直接输入整张图片,利用特征共享机制一次网络前向传播操作就可以产生每个区域的多级特征,取得了良好的效果,也是当前最先进方法的组成基础。

我们的方法能拓展静态显著性检测器用于视频显著性。

2.2 视频显著性

与静态相比,动态显著

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值