2020REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for VQA

最新推荐文章于 2022-08-13 18:33:03 发布

weixin_42653320

最新推荐文章于 2022-08-13 18:33:03 发布

阅读量192

点赞数

分类专栏：视觉问答文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_42653320/article/details/118630827

版权

REXUP是一种深度推理VQA模型，它通过处理图像对象和场景图特征，捕捉推理过程和复杂对象关系。在GQA数据集上，REXUP表现出优越性能，特别是在检测和理解复杂图像方面。模型包含两个分支，分别面向图像对象和场景图，通过超对角融合实现注意力网络，以增强交互并提取关键信息。

摘要由CSDN通过智能技术生成

视觉问答的推理、提取、更新结构化的组合推理

原文

代码

摘要

视觉问答不仅需要图像和问题的语义理解，还需要对一步步推理的感知，才能得到正确答案。目前为止，成功的VQA大多尝试关注一个方面，要么关注视觉像素特征和词特征的相互作用，要么关注回答关于图像的问题的推理步骤。本文提出一个具有明确视觉结构化的文本信息的深度推理VQA模型(REXUP-REason、EXtract和UPdate)，它在捕捉一步步的推理过程和检测逼真图像中复杂的对象关系方面表现良好。REXUP包含两个分支，面向图像对象和面向场景图，与超对角融合合成的注意力网络联合工作。我们在GQA数据集上评估REXUP，并进行消融研究以探索在REXUPs有效性背后的原因。我们最好的模型显著优于以前的最先进的模型，它在验证集上实现92.7%的性能，在测试开发集上73.1%。

一、介绍

过去工作提出的VQA模型关注分析逼真图像上的对象，但是只适用于简单的目标检测和yes/no问题上，为提高推理能力，提出有着组合问题和合成图像的Clever数据集。在Clever数据集上最先进模型是合成注意力网络CAN[11]，生成针对图像和问题词的推理步骤，然而，Clever数据集是专门为评估VQA模型推理能力而设计的，图像中的目标只有三种不同形状和四种空间关系，导致图像式样简单，因此高准确率也很难证明有较高的目标检测和分析能力，也不能证明VQA模型的显著推理能力。

为战胜VQA和Clever的限制，提出GQA数据集，GQA数据集[12]包括超过1.7K不同对象和300种关系的真实图像。GQA为开放式问题提供不同类型的答案，以防止模型记忆答案模式，并检查答案预测的图像和问题理解。

在Clever和VQA数据集中的先进模型在GQA数据集中有着很大的性能下降，因为视觉特征和问题特征的交互并不能反映图像中对象的潜在结构化关系，因此提出REXUP网络，捕捉一步步的推理过程和利用场景图特征检测复杂的对象关系。

REXUP网络包含两个平行分支，其中图像对象特征和场景图特征分别由迭代的问题引导，以REXUP单元格构建一系列推理步骤，在对象特征和问题嵌入间还引入了超对角融合。处理场景图特征的分支捕获对象的潜在结构化关系，集成到另一个分支特征处理，以进行最终答案预测。模型在GQA数据集上评估，在训练期间使用官方GQA场景图注释。为编码场景图特征，我们从场景图中提取文本信息，并且使用Glove嵌入编码提取的文本词，以捕获场景图中包含的语义信息。实验中，REXUP网络在深度推理问答任务上使用复杂的逼真图像在GQA数据集上实现了最先进性能。