ACL 2020 TVQA+: Spatio-Temporal Grounding for Video Question Answering

最新推荐文章于 2024-11-13 00:34:49 发布

原创

最新推荐文章于 2024-11-13 00:34:49 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

研究者提出了时空视频问答任务，以解决视频问答中的时间性和空间性挑战。为此，他们创建了TVQA+数据集，包含时空标注，以促进模型对视觉概念的理解。同时，他们提出了一种名为STAGE的新模型，能够同时定位相关时刻、检测目标并回答问题。实验表明，STAGE在多个评估指标上优于基线模型，且能提供可解释的注意力可视化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

基于图像的QA成功的一个关键是空间attention，而attention技术很难概括到视频的时间性。

基于图像的视觉问答(QA)任务近年来取得了长足的进展。这一成功的一个关键是空间attention，其中神经模型学会关注相关区域以预测正确答案。与基于图像的QA相比，基于视频的QA任务在性能上的进步较小。一个可能的原因是attention技术很难概括到视频的时间性。而且，由于标注的成本很高，大多数现有的视频QA数据集只包含QA对，而没有为回答问题提供所需的关键剪辑或区域标签。受先前关于基于图像和视频captioning的工作启发，作者提出了明确定位视频片段以及用于回答基于视频的问题的空间区域的方法。这些方法在许多场景中都是有用的，例如自然语言引导的时空定位，以及增加视频问答的可解释性，这对于决策和模型调试都有潜在的用途。为了能够进行这一系列的研究，作者还为一个现有的视频QA数据集收集了新的联合时空标注。
TVQA是研究机器学习模型对复杂视频理解的一个有用的测试床。

在过去几年中，提出了几个视频QA数据集，例如MovieFIB、MovieQA、TGIF-QA、PororoQA、MarioQA和TVQA。TVQA是最大的视频QA数据集之一，提供了一个建立在6部著名电视剧之上的大型视频QA数据集。由于TVQA是在电视节目中收集的，它建立在具有丰富动态和复杂社会互动的自然视频内容上，问答对是由人观看视频及其伴随的对话编写的，使得问题需要视觉和语言理解来做回答。电影和电视节目视频具有脚本和编辑的局限性，但它们仍然比卡通/动画和游戏视频更逼真，它们还具有更丰富的、以真实世界为灵感的人与人之间的交互，并跨越不同的领域（例如，医疗、犯罪、情景喜剧等），使它们成为研究机器学习模型对复杂视频理解的一个有用的测试床。
现有的视频QA数据集（包括TVQA）都没有为答案提供空间标注。

TVQA的一个关键特性是它提供了时间标注，它表示视频剪辑的哪些部分是回答提出的问题所必需的。然而，现有的视频QA数据集（包括TVQA）都没有为答案提供空间标注。实际上，正确地基于空间区域与基于时间时刻对于回答给定的问题同样重要。例如，在图1中，要回答“What is Sheldon holding when he is talking to Howard about the sword?”这个问题，作者需要将“he is talking to Howard about the sword?”这个时刻定位，以及看“What is Sheldon holding”这个区域。

在这里插入图片描述

问答。

不同于现有的视频问答任务中的一个系统只需要预测一个答案，作者提出了一个新的任务，在空间和时间两个域中都增加了答案的依据，使答案合理化。
基于语言引导的检索。

Grounding图像/视频中语言是一个有趣的问题，它需要同时理解文本和视觉形式。较早的著作侧重于在图像中识别涉及到的目标。近些年，时刻检索任务研究越来越多，其目标是通过自然语言查询定位长视频中的一个短片段。作者的工作整合了两个任务的目标，需要一个系统同时ground涉及到的时刻和目标。
时间和空间attention。

attention在许多视觉和语言任务上表现出巨大的成功，如图像captioning、视觉问题回答、语言grounding等，但有时模型本身学习到的attention可能与人类预期不符。最近关于基于的图像captioning和视频captioning的研究表明，明确监督attention可以获得更好的性能。在本工作中，作者使用带标注的逐帧边界框注解来监督时间和空间attention。实验结果证明了在视频问答中对两个域进行监督的有效性。

方法

简介

本文首先对TVQA数据集的一个子集进行了基于边界框的扩充，得到了一个基于时空的视频QA数据集TVQA+。它由29.4K个时间和空间领域的多选问题组成。为了收集空间groundings，作者首先要识别问题或正确答案中提到的一组视觉概念词，即物和人。接下来，作者联合在独立帧中带有目标区域的涉及到的概念，如果存在，那么每个涉及到的概念是通过标注边界框得到（参见图1中的示例）。TVQA+数据集共有310.8K个与涉及到的物和人链接的边界框，囊括2.5K个类别。

在此基础上，提出了时空视频问答的任务，该任务要求智能系统定位相关时刻，检测涉及到的物、人和回答问题。在此基础上，设计了QA精度、目标grounding精度、时间定位精度、时间定位与QA准确度的一个联合这几个衡量指标来评价该任务的性能。针对时空视频问答，提出了一种新的端到端可训练的基于证据的时空问答模型STAGE（Spatio-Temporal Answerer with Grounded Evidence），该模型将时刻定位、目标grounding和问题问答有机地结合在一个统一的框架中。作者发现QA的表现同时受益于时间时刻和空间区域的监督。此外，作者还提供了时间和空间定位的可视化，这有助于理解作者的模型所学到的东西。全面的消融研究展示了作者的每个标注和模型组件是如何帮助改进任务的性能的。