CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

最新推荐文章于 2024-01-07 14:26:57 发布

NeverMoreH

最新推荐文章于 2024-01-07 14:26:57 发布

阅读量1.8k

点赞数 1

分类专栏： vision&language # video grounding 文章标签： CVPR2020 STVG

本文链接：https://blog.csdn.net/ms961516792/article/details/107228098

版权

vision&language 同时被 2 个专栏收录

53 篇文章

订阅专栏

video grounding

2 篇文章

订阅专栏

本文介绍了一种新的视频理解任务STVG，旨在untrimmed视频中定位由陈述句和疑问句描述的目标。提出了STGRN模型，该模型通过跨模态推理在新数据集VidSTG上取得了优异效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

本文也是一篇poster，作者出自浙大、阿里巴巴和电科大。
本文提出了一个新的task——STVG（Spatio-Temporal Video Grounding for Multi-Form Sentences），下面将进行详细介绍。
下载链接

动机

首先，针对Video Grounding这个task，大多是针对特定的一帧或者几帧进行grounding，再或者是在 trimmed videos上进行grounding。本文提出在untrimmed videos上进行grounding，并且使用两种形式的sentences，分别是陈述句和疑问句。由于疑问句中不会“显式地”指出目标，更考验模型的推理能力。这个task称为STVG。

其次，针对Video Grounding领域的方法，现有大多数方法，都是先提proposals，再根据sentence选择最优proposal，但是这类方法不适用于STVG任务。可以从两点进行解释：①. 这类方法的性能很大程度依赖于提取的proposals的质量，但是STVG中使用的是untrimmed videos，ground truth在其中占的比例很小，不参考textual clues，很难提取出有质量的proposals；②. 这类方法通常只考虑对单个tube建模，忽略了objects之间的关系。

贡献

提出STVG任务。
提出STGRN模型应对STVG任务。
提出针对STVG任务的数据集VidSTG。
STGRN模型在VidSTG数据集上取得了很好的效果。

方法

本文方法的整体框架如下图所示，下面进行详细介绍。

对于输入的text和image，本文分别采用双向GRU和Faster R-CNN作为encoder，得到特征图。然后，基于Faster R-CNN的检测结果，构造三个图，分别是：隐式空间图、显式空间图和时间动态图。隐式空间图是由每个object为节点，得到的完全图（无向图）。显式空间图是一个场景图，根据CVPR2018构造（有向图）。时间动态图将每帧的objects和前后的M帧相连，建边的原则是——根据特征的余弦相似度和IoU加权得到。

得到三个图后，基于它们进行多步跨模态推理，具体做法其实就两步，先进行跨模态融合，然后使用空间图卷积（或时间图卷积）。跨模态融合分为三步：首先，对于每个region，使用注意力机制聚集文本特征；然后，使用一个textual gate机制，弱化文本无关区域；最后，将得到的region feature和textual feature进行concatenate，得到跨模态特征 $v_0$ （方便表示，先忽略时间步 $t$ ，区域索引 $i$ 等）。多步推理体现在空间图卷积（或时间图卷积）上，基于刚才得到的特征，进行T步的空间图卷积（或时间图卷积），会得到三个不同的特征 $v_1$ 、 $v_2$ 和 $v_3$ 。最终特征通过 $v_{end}=ReLU(v_0+v_1+v_2+v_3)$ 得到。

得到特征后，通过两个Localizer对生成tube。首先介绍Temporal Localizer，这部分作者参考了SIGIR2019。先是对于每一帧，多尺度地生成proposals，然后使用参考论文中的方法，对每个proposal进行评估，同时预测出边界的offset。接下来，介绍Spatial Localizer，直接使用一个线性层，预测region feature和query representation（这部分是在text encoder学到的）的match score。但是这样选，在时间维度上，bbox的变化不够平滑，故作者定义了一个link score，选择bbox的时候，不光考虑match score，还要考虑它与后一帧bbox的IoU。