2021:Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering

摘要

        视觉问答需要对问题的深度语义和语言理解,以及将其与图像中的对象联系起来的能力,它需要计算机视觉和自然语言处理的多模态推理。我们提出Graphhopper,通过整合知识图推理、计算机视觉和自然语言处理技术来处理任务。具体地,我们的方法是基于场景实体及其语义和空间关系来执行上下文驱动、序列化的推理。第一步,我们获得一个描述图像中物体和它们的属性和相互关系的场景图。随后,训练一个强化学习代理,以多跳方式在提取的场景图上自主导航,以生成推理路径,这是推到答案的基础。在GQA数据集上进行实验,基于手动管理和自动生成的场景图。结果表明,用手动管理的场景图能赶上人类的性能,而且,我们发现Graphhopper在手动管理和自动生成的场景图上都显著优于另一个最先进的场景图推理模型。

一、介绍

        VQA数据集中存在语言先验,即对于一些有挑战性的推理任务,算法会利用先验知识,通过捷径来达到合适的推理。为解决此问题,提出GQA数据集,相比于其它真实世界数据集更适合评估推理能力,因为图像和问题都是经过仔细过滤,使数据不太容易产生偏见。

        许多VQA方法对所呈现场景中对象的显式关系结构是不可知的,并依赖于神经网络结构分开处理图像的区域特征。这些方法缺乏显示的推理能力。我们的目标是将VQA最新技术和知识图的统计关系学习领域的最新研究进展相结合。知识图通过事实陈述的集合,提供了人类可以理解的、关于现实世界的知识的结构化表示。受KGs的多跳推理方法的启发,我们提出了Graphhopper,一种将VQA任务建模为场景图上的寻找路径问题的新方法。

详细来说,给定一个图像,考虑一个场景图并训练一个强化学习代理在在场景图上进行策略引导的随机行走,直到获得一个决定性的推理路径。与纯粹基于嵌入的方法相比,我们的方法提供了显式推理链,导致推导的答案。综上所述,我们的主要贡献如下:

        (1)Graphhopper是第一个利用场景图的多跳推理的增强学习的VQA方法;(2)在GQA数据集上进行实验显示我们方法的组成和可解释的性质;(3)为分析推理能力,我们考虑手动策划(ground truth)场景图,这一设置分离了与视觉感知任务相关的噪声,只关注语言理解和推理任务,因此,我们证明我们的方法达到了与人类类似的性能;(4)基于手动管理和自动生成的场景图,我们显示了Graphhopper优于神经状态机(NMS)--一个最先进的场景图推理模型,在一种设置中运行,类似于Graphhopper。

二、相关工作

三、方法

        VQA任务被作为一个场景图遍历问题&#

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值