Modular Graph Attention Network for Complex Visual Relational Reasoning

最新推荐文章于 2022-05-20 10:59:38 发布

kwang8090

最新推荐文章于 2022-05-20 10:59:38 发布

阅读量881

点赞数

分类专栏： VQA 文章标签：网络计算机视觉深度学习

本文链接：https://blog.csdn.net/wangxiaoxiaodeer/article/details/122123024

版权

文章提出了一种模块化图形注意力网络（MGA网络），旨在解决复杂视觉关系推理任务，尤其在视觉问答和视觉语言导航中的挑战。MGA网络通过语言注意网络分解查询，对象注意网络选择相关对象，关系推理网络则利用门控图神经网络进行多步推理，以理解和定位目标对象。在CLEVR-Ref+、GQA和CLEVR-CoGenT数据集上，MGA网络展示了卓越的推理性能。

摘要由CSDN通过智能技术生成

复杂视觉关系推理的模块化图注意网络

Abstract

视觉关系推理对于许多基于视觉和语言的任务至关重要，例如视觉问答和视觉语言导航。在这篇文章中，我们考虑了复杂重现表达理解任务的推理，该任务寻求在复杂查询引导的图像中定位目标对象。这种查询通常包含复杂的逻辑，因此对推理提出了两个关键挑战:(1)理解查询可能非常困难，因为它经常引用多个对象并描述它们之间的复杂关系。(ii)在由查询引导的多个对象之间进行推理并正确定位目标是非常重要的。为了应对这些挑战，我们提出了一种新的模块化图形注意力网络(MGA网络)。具体来说，为了理解长查询，我们设计了一个语言注意网络，将长查询分解为四种类型:基本属性、绝对位置、视觉关系和相对位置，模仿人类语言理解机制。此外，为了捕捉查询中的复杂逻辑，我们构造了一个关系图来表示可视化对象及其关系，并提出了一种多步推理方法来逐步理解复杂逻辑。在CLEVR-Ref+、GQA和CLEVR-CoGenT数据集上的大量实验证明了我们的MGA网络的优越推理性能。

Introduction

视觉关系推理通常需要一台机器来推理视觉和文本信息以及对象之间的关系，然后再做出决定。这个问题对于许多基于视觉和语言的任务至关重要，例如视觉问答(VQA)[1–3]和视觉语言导航VLN。然而，推理可能非常困难，因为视觉和文本内容往往非常复杂。如何建立一个模型来执行复杂的视觉关系推理，以及如何验证这种模型的推理能力，仍然不清楚。

幸运的是，我们发现复杂指称表达理解(c-REF)任务[7，8