CVPR 2021 AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

最新推荐文章于 2022-11-30 17:09:21 发布

smile909

最新推荐文章于 2022-11-30 17:09:21 发布

阅读量618

点赞数

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/116278738

版权

动机

在这里插入图片描述

视觉事件是由一个涉及演员和物体的空间交互的时间动作组成的。人们对利用问答来实现视频推理能力的兴趣与日俱增。
现有的视频问答基准是有用的，但它们往往将多个误差源混入一个准确性度量中，并且具有模型可以利用的强烈偏差，使得模型的弱点很难精确定位。
对于现有的视频问答基准，由于答案分布的偏差和视觉事件发生的非均匀分布，模型可能会发展出“cheating”的方法，这种方法可以表面上猜测答案，而不学习潜在的合成推理过程。
视觉领域只开发了使用静态图像或同步世界的组合问答基准，这些静态图像或同步世界要么不是时空的，要么不反映真实世界事件的多样性。
为了有效地衡量模型对目标的时空推理、它们的关系和时间行为的联合组合程度，是需要更新的基准，对问题的组合和在问题和答案中概念的分布进行更细粒度的控制。
作者提出的基准，它定义了多个度量来探索真实世界视频中的组合推理。
相比之下，作者的语料库纯粹是基于视觉的，比之前的语料库大三个数量级，而且评估复杂的多步推理。

简介

提出了一种新的组合时空推理的基准–行动基因组问答(AGQA)（Action Genome Question Answering， AGQA）。AGQA包含针对9.6K视频的192M不平衡问题-答案对。还提供了一个由390万个问题-答案对组成的平衡子集，比现有的基准测试大3个数量级，通过平衡答案分布和问题结构的类型来最大限度地减少偏差。作者对AGQA中的问题和答案进行了验证，每个类别至少有50个问题使用人工标注器进行验证，发现标注器与作者的答案的一致性为86.02%。（虽然人类评估者对作者的问题-答案对回答正确的评分为86.02%，但最好的模型只达到了47.74%的准确率。）每个问题都由一个手工编制的程序生成，该程序概述了回答问题所需的必要推理步骤。作者的程序在Action Genome的时空场景图上操作，以自动生成问题-答案-视频对。程序通过在Charades的动作标注和Action Genome的时空场景图上进行操作生成问题，这些场景图将视频中所有带有边界框的目标和带有时间戳的动作ground。这些程序还为作者提供了对回答每个问题需要哪些推理能力的粒度控制。例如，AGQA中的一些问题只要求理解动作的时间顺序（例如：“Did they take a picture before or after they did the longest action?”(“他们在做最长的动作之前还是之后拍了一张照片？”)），而其他一些问题则要求同关系协作来理解动作（例如：“What did the person hold after putting a phone somewhere?”(“在把电话放在某个地方之后，这个人拿着什么？”)）。作者通过在偏斜的答案分布上和在不同组成结构的家族中使用拒绝抽样来控制偏差。

通过对问题生成过程的粒度控制，作者还引入了一组新的训练/测试splits，用于测试特定形式的组成时空需求：对新组成的泛化，对间接引用的泛化，以及对更多组成步骤的泛化。作者测试模型(PSAC、HME和HRCN)是否推广到在训练过程中看不到的新的组成–训练集可以分别包含关系twist（转动）和目标bottle（瓶子），而测试集需要对诸如“Did the person twist the bottle after taking a picture?”（“拍照后的人转动瓶子了吗？”）这样的问题进行推理，这两个概念在一个新的构成中配对在一起。类似地，作者测试模型是否泛化为目标的间接引用，方法是将“Do the person twist the bottle？”（“人转动瓶子了吗？”）中的bottle之类的目标替换为间接引用，从而生成问题“Did the person wist the object they were holding last?”（“这个人是否转动了他们最后拿着的东西？”）。最后，作者测试模型是否泛化为具有更多推理步骤的问题，方法是将测试集限制为比训练集中的问题具有更多推理步骤的问题（例如，“在拿着瓶子之前，但在拍完照片、拿手机或瓶子之后，他们最后碰了什么？”）。

作者利用AGQA对当前视觉推理系统(PSAC、HME和HRCN)进行了评估，发现它们的表现并不比纯粹利用语言偏差的模型好。性能最高的模型仅达到47.74%的准确率，HCRN的性能仅比仅使用语言版本好0.42%。虽然有一些证据表明模型可以推广到间接引用，但所有这些模型的精确度都随着组合步数的增加而降低，并且没有一个模型可

最低0.47元/天解锁文章

smile909

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

动机视觉事件是由一个涉及演员和物体的空间交互的时间动作组成的。人们对利用问答来实现视频推理能力的兴趣与日俱增。现有的视频问答基准是有用的，但它们往往将多个误差源混入一个准确性度量中，并且具有模型可以利用的强烈偏差，使得模型的弱点很难精确定位。对于现有的视频问答基准，由于答案分布的偏差和视觉事件发生的非均匀分布，模型可能会发展出“cheating”的方法，这种方法可以表面上猜测答案，而不学习潜在的合成推理过程。视觉领域只开发了使用静态图像或同步世界的组合问答基准，这些静态图像或同步世界要么不是时空
复制链接

扫一扫

专栏目录