2021:Zero-shot Visual Question Answering using Knowledge Graphs使用知识图的零次视觉问答

摘要

        现在的方法主要采用不同组件的管道方法来学习知识匹配和提取、特征学习等,但是当某些组件性能不佳时,这种管道方法就会受到影响,从而导致错误的传播和整体性能变差。而且,大多现有方法忽视答案偏见问题--即很多答案在训练期间中未出现过。为弥补这些差距,本文提出一种使用知识图谱和基于掩码的学习机制的零次VQA算法,以更好融入外部知识,并为F-VQA数据集提出新的基于答案的零镜头VQA分割。实验表明,我们的方法在未见的答案的零次VQA中实现最佳性能,同时显著增强了通用VQA任务中现有的端到端模型。

代码和数据

一、介绍

        大多数现有的VQA不能解决这种答案不能从图像中直接获得,而是依赖外部知识的开放世界场景理解。如图1,Q1的答案在问题和图像之外,Q2和Q3的答案在图像或问题中但需要额外的知识。

         一些为开放视觉场景理解而用外部知识的VQA方法有:Marino et al.[16]广泛利用来自Web的非结构化文本信息作为外部信息,但未能解决文本中的噪声(不相关的信息)。Wang et al.[27]首先从图像中提取视觉概念,然后将它们链接到外部知识图(KG),然后,可以将相应的问题转换为对KG的一系列查询(如SPARQL查询)以检索答案。Zhu等人[31]相反,通过结合视觉概念之间的空间关系和描述性语义关系,以及从KGs中检索到的支持事实,构建一个多模态异构图,然后应用一个模态感知图卷积网络来推断答案。然而,如果管道中的一个模块运行得不好,所有这些方法的性能都会受到巨大的影响。尽管一些端到端模型如[13,2]已经被提出以避免错误级联,但它们仍然是相当初步的,特别是在利用外部知识方面,在许多VQA任务上的性能比管道方法更差。

         VQA中另一个重要问题是对有标签的训练数据的依赖,对于新类型的问题或答案,以及图像中新出现的对象,需要收集带标记的元组并从零开始训练模型。针对这一限制,提出Zero-shot VQA(ZS-VQA)旨在预测训练样本中从未出现过的对象、问题或答案。Teney等人解决包含新词的问题,而[22,9]解决包含新对象的图像。然而,这些VQA模型仍然只关注于封闭世界场景理解,没有考虑看不见的答案,且很少充分利用KG。本文利用KG来研究开放世界场景理解的VQA,需要外部知识回答问题,和ZS-VQA,专门解决新答案的子任务。

        本文我们提出一种使用KG的ZS-VQA算法和一种基于掩码的学习机制,同时提出了一种新的零次事实VQA(ZS-F-VQA)数据集,即评估ZS-VQA的看不见的答案。首先,分别学习三种不同的特征映射空间,即关系的语义空间、支持实体的对象空间和答案的知识空间,它们都将图像-问题对(I-Q对)与相应目标的联合嵌入对齐。通过所有选择的支持实体和关系的组合,掩码根据映射表决定,映射表包含在一个事实KG中的所有三元组,指导看不见的答案预测的对齐过程。特别是,这些掩码可以作为硬掩码或软掩码使用,这取决于VQA的任务。硬掩码用于ZS-VQA任务;例如,使用ZS-F-VQA数据集,我们的方法实现了最先进的性能,并远优于其他方法(30∼40%)。另一方面,软掩码用于标准的VQA任务;例如,使用F-VQA数据集,我们的方法对基线端到端方法取得了稳定的改进(6∼9%),很好地缓解了管道模型的误差级联问题。

        综上所述,主要贡献总结如下:1)提出一个使用KGs的增强ZS-VQA算法,通过掩码来调整答案预测分数,掩码是基于在两个特征空间中的支持实体/关系和融合I-Q对间的排列。2)定义了一个新的ZS-VQA问题,需要外部知识,并考虑看不见的答案,因此开发了一个ZS-F-VQA数据集进行评估。3)我们的基于KG的ZS-VQA算法相当灵活,它可以成功地解决依赖于外部知识的正常VQA任务和ZS-VQA任务,并可以直接增强到现有的端到端的模型。

二、相关工作

2.1 视觉问答

        基于知识的VQA:为研究VQA合成外部知识,提出F-VQA,OK-VQA和KVQA数据集,F-VQA中的每个问题都是指相关KG中的一个特定事实的三元组,比如ConceptNet。而OK-VQA是手动标记的,而没有一个有引导的KG作为参考,这导致了其困难。KVQA的目标是问题关于特征间关系的世界知识。我们提出的框架利用端到端和管道方法的优势,我们提高了模型的可转移性,同时有效避免了错误级联,使它对不同任务非常通用,具有鲁棒性,实现了优越的性能。

2.2 零次VQA

        零次以解决在不看到训练样本时处理这些新的类。Teney等人[25]首先提出零镜头VQA(ZS-VQA),并在语言语义方面引入新概念,如果问题或答案中至少有一个新单词,测试样本被视为是看不见的。Ramakrishnan等人[22]通过非结构化外部数据(从视觉和语义层面

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值