摘要
现在的方法主要采用不同组件的管道方法来学习知识匹配和提取、特征学习等,但是当某些组件性能不佳时,这种管道方法就会受到影响,从而导致错误的传播和整体性能变差。而且,大多现有方法忽视答案偏见问题--即很多答案在训练期间中未出现过。为弥补这些差距,本文提出一种使用知识图谱和基于掩码的学习机制的零次VQA算法,以更好融入外部知识,并为F-VQA数据集提出新的基于答案的零镜头VQA分割。实验表明,我们的方法在未见的答案的零次VQA中实现最佳性能,同时显著增强了通用VQA任务中现有的端到端模型。
一、介绍
大多数现有的VQA不能解决这种答案不能从图像中直接获得,而是依赖外部知识的开放世界场景理解。如图1,Q1的答案在问题和图像之外,Q2和Q3的答案在图像或问题中但需要额外的知识。
一些为开放视觉场景理解而用外部知识的VQA方法有:Marino et al.[16]广泛利用来自Web的非结构化文本信息作为外部信息,但未能解决文本中的噪声(不相关的信息)。Wang et al.[27]首先从图像中提取视觉概念,然后将它们链接到外部知识图(KG),然后,可以将相应的问题转换为对KG的一系列查询(如SPARQL查询)以检索答案。Zhu等人[31]相反,通过结合视觉概念之间的空间关系和描述性语义关系,以及从KGs中检索到的支持事实,构建一个多模态异构图,然后应用一个模态感知图卷积网络来推断答案。然而,如果管道中的一个模块运行得不好,所有这些方法的性能都会受到巨大的影响。尽管一些端到端模型如[13,2]已经被提出以避免错误级联,但它们仍然是相当初步的,特别是在利用外部知识方面,在许多VQA任务上的性能比管道方法更差。
VQA中另一个重要问题是对有标签的训练数据的依赖,对于新类型的问题或答案,以及图像中新出现的对象,需要收集带标记的元组并从零开始训练模型。针对这一限制,提出Zero-shot VQA(ZS-VQA)旨在预测训练样本中从未出现过的对象、问题或答案。Teney等人解决包含新词的问题,而[22,9]解决包含新对象的图像。然而,这些VQA模型仍然只关注于封闭世界场景理解,没有考虑看不见的答案,且很少充分利用KG。本文利用KG来研究开放世界场景理解的VQA,需要外部知识回答问题,和ZS-VQA,专门解决新答案的子任务。
本文我们提出一种使用KG的ZS-VQA算法和一种基于掩码的学习机制,同时提出了一种新的零次事实VQA(ZS-F-VQA)数据集,即评估ZS-VQA的看不见的答案。首先,分别学习三种不同的特征映射空间,即关系的语义空间、支持实体的对象空间和答案的知识空间,它们都将图像-问题对(I-Q对)与相应目标的联合嵌入对齐。通过所有选择的支持实体和关系的组合,掩码根据映射表决定,映射表包含在一个事实KG中的所有三元组,指导看不见的答案预测的对齐过程。特别是,这些掩码可以作为硬掩码或软掩码使用,这取决于VQA的任务。硬掩码用于ZS-VQA任务;例如,使用ZS-F-VQA数据集,我们的方法实现了最先进的性能,并远优于其他方法(30∼40%)。另一方面,软掩码用于标准的VQA任务;例如,使用F-VQA数据集,我们的方法对基线端到端方法取得了稳定的改进(6∼9%),很好地缓解了管道模型的误差级联问题。
综上所述,主要贡献总结如下:1)提出一个使用KGs的增强ZS-VQA算法,通过掩码来调整答案预测分数,掩码是基于在两个特征空间中的支持实体/关系和融合I-Q对间的排列。2)定义了一个新的ZS-VQA问题,需要外部知识,并考虑看不见的答案,因此开发了一个ZS-F-VQA数据集进行评估。3)我们的基于KG的ZS-VQA算法相当灵活,它可以成功地解决依赖于外部知识的正常VQA任务和ZS-VQA任务,并可以直接增强到现有的端到端的模型。
二、相关工作
2.1 视觉问答
基于知识的VQA:为研究VQA合成外部知识,提出F-VQA,OK-VQA和KVQA数据集,F-VQA中的每个问题都是指相关KG中的一个特定事实的三元组,比如ConceptNet。而OK-VQA是手动标记的,而没有一个有引导的KG作为参考,这导致了其困难。KVQA的目标是问题关于特征间关系的世界知识。我们提出的框架利用端到端和管道方法的优势,我们提高了模型的可转移性,同时有效避免了错误级联,使它对不同任务非常通用,具有鲁棒性,实现了优越的性能。
2.2 零次VQA
零次以解决在不看到训练样本时处理这些新的类。Teney等人[25]首先提出零镜头VQA(ZS-VQA),并在语言语义方面引入新概念,如果问题或答案中至少有一个新单词,测试样本被视为是看不见的。Ramakrishnan等人[22]通过非结构化外部数据(从视觉和语义层面