2020REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for VQA

视觉问答的推理、提取、更新结构化的组合推理

原文

代码

摘要

        视觉问答不仅需要图像和问题的语义理解,还需要对一步步推理的感知,才能得到正确答案。目前为止,成功的VQA大多尝试关注一个方面,要么关注视觉像素特征和词特征的相互作用,要么关注回答关于图像的问题的推理步骤。本文提出一个具有明确视觉结构化的文本信息的深度推理VQA模型(REXUP-REason、EXtract和UPdate),它在捕捉一步步的推理过程和检测逼真图像中复杂的对象关系方面表现良好。REXUP包含两个分支,面向图像对象和面向场景图,与超对角融合合成的注意力网络联合工作。我们在GQA数据集上评估REXUP,并进行消融研究以探索在REXUPs有效性背后的原因。我们最好的模型显著优于以前的最先进的模型,它在验证集上实现92.7%的性能,在测试开发集上73.1%。

一、介绍

        过去工作提出的VQA模型关注分析逼真图像上的对象,但是只适用于简单的目标检测和yes/no问题上,为提高推理能力,提出有着组合问题和合成图像的Clever数据集。在Clever数据集上最先进模型是合成注意力网络CAN[11],生成针对图像和问题词的推理步骤,然而,Clever数据集是专门为评估VQA模型推理能力而设计的,图像中的目标只有三种不同形状和四种空间关系,导致图像式样简单,因此高准确率也很难证明有较高的目标检测和分析能力,也不能证明VQA模型的显著推理能力。

        为战胜VQA和Clever的限制,提出GQA数据集,GQA数据集[12]包括超过1.7K不同对象和300种关系的真实图像。GQA为开放式问题提供不同类型的答案,以防止模型记忆答案模式,并检查答案预测的图像和问题理解。

        在Clever和VQA数据集中的先进模型在GQA数据集中有着很大的性能下降,因为视觉特征和问题特征的交互并不能反映图像中对象的潜在结构化关系,因此提出REXUP网络,捕捉一步步的推理过程和利用场景图特征检测复杂的对象关系。

        REXUP网络包含两个平行分支,其中图像对象特征和场景图特征分别由迭代的问题引导,以REXUP单元格构建一系列推理步骤,在对象特征和问题嵌入间还引入了超对角融合。处理场景图特征的分支捕获对象的潜在结构化关系,集成到另一个分支特征处理,以进行最终答案预测。模型在GQA数据集上评估,在训练期间使用官方GQA场景图注释。为编码场景图特征,我们从场景图中提取文本信息,并且使用Glove嵌入编码提取的文本词,以捕获场景图中包含的语义信息。实验中,REXUP网络在深度推理问答任务上使用复杂的逼真图像在GQA数据集上实现了最先进性能。

二、相关工作和贡献

VQA的融合

        多模态融合有简单连接和求和,如将问题和对象特征连接,并将联合向量送入双向GRU。然而,双线性融合方法更有效且参数更少,如基于[3]提出的张量分解,[4]提出一种双线性融合中投影张量的块分解,[5]将这种融合应用到他们提出的MuRel网络。

基于注意力的组合VQA

        注意力机制也可应用到VQA中融合多模态特征,注意力机制包括软注意力机制(使用softmax生成对象区域和问题词的注意权重),自注意力机制(在每个模态的特征上应用点积),和协同注意力机制(使用语言特征引导视觉特征的注意,反之亦然)。

VQA的图表示

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值