CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

简介

本文也是一篇poster,作者出自浙大、阿里巴巴和电科大。
本文提出了一个新的task——STVG(Spatio-Temporal Video Grounding for Multi-Form Sentences),下面将进行详细介绍。
下载链接

动机

首先,针对Video Grounding这个task,大多是针对特定的一帧或者几帧进行grounding,再或者是在 trimmed videos上进行grounding。本文提出在untrimmed videos上进行grounding,并且使用两种形式的sentences,分别是陈述句和疑问句。由于疑问句中不会“显式地”指出目标,更考验模型的推理能力。这个task称为STVG。

其次,针对Video Grounding领域的方法,现有大多数方法,都是先提proposals,再根据sentence选择最优proposal,但是这类方法不适用于STVG任务。可以从两点进行解释:①. 这类方法的性能很大程度依赖于提取的proposals的质量,但是STVG中使用的是untrimmed videos,ground truth在其中占的比例很小,不参考textual clues,很难提取出有质量的proposals;②. 这类方法通常只考虑对单个tube建模,忽略了objects之间的关系。

贡献

  1. 提出STVG任务。
  2. 提出STGRN模型应对STVG任务。
  3. 提出针对STVG任务的数据集VidSTG。
  4. STGRN模型在VidSTG数据集上取得了很好的效果。

方法

本文方法的整体框架如下图所示,下面进行详细介绍。

对于输入的text和image,本文分别采用双向GRU和Faster R-CNN作为encoder,得到特征图。然后,基于Faster R-CNN的检测结果,构造三个图,分别是:隐式空间图、显式空间图和时间动态图。隐式空间图是由每个object为节点,得到的完全图(无向图)。显式空间图是一个场景图,根据CVPR2018构造(有向图)。时间动态图将每帧的objects和前后的M帧相连,建边的原则是——根据特征的余弦相似度和IoU加权得到。

得到三个图后,基于它们进行多步跨模态推理,具体做法其实就两步,先进行跨模态融合,然后使用空间图卷积(或时间图卷积)。跨模态融合分为三步:首先,对于每个region,使用注意力机制聚集文本特征;然后,使用一个textual gate机制,弱化文本无关区域;最后,将得到 的region feature和textual feature进行concatenate,得到跨模态特征 v 0 v_0 v0(方便表示,先忽略时间步 t t t,区域索引 i i i等)。多步推理体现在空间图卷积(或时间图卷积)上,基于刚才得到的特征,进行T步的空间图卷积(或时间图卷积),会得到三个不同的特征 v 1 v_1 v1 v 2 v_2 v2 v 3 v_3 v3。最终特征通过 v e n d = R e L U ( v 0 + v 1 + v 2 + v 3 ) v_{end}=ReLU(v_0+v_1+v_2+v_3) vend=ReLU(v0+v1+v2+v3)得到。

得到特征后,通过两个Localizer对生成tube。首先介绍Temporal Localizer,这部分作者参考了SIGIR2019。先是对于每一帧,多尺度地生成proposals,然后使用参考论文中的方法,对每个proposal进行评估,同时预测出边界的offset。接下来,介绍Spatial Localizer,直接使用一个线性层,预测region feature和query representation(这部分是在text encoder学到的)的match score。但是这样选,在时间维度上,bbox的变化不够平滑,故作者定义了一个link score,选择bbox的时候,不光考虑match score,还要考虑它与后一帧bbox的IoU。

实验

在VidSTG数据集上的实验结果如下:

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值