视觉问答(VQA)是一项耗时很长的任务,越来越受到计算机视觉和自然语言处理领域的关注。目前VQA的研究主要集中在可以通过直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert,用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题,ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph,KG)来推断正确的答案。我们介绍了一种多模态表示,它学习了一种联合概念-视觉-语言嵌入。我们使用ConceptNet KG对常识知识进行编码,并在外部知识--VQA(OK-VQA)和VQA数据集上对我们的方法进行了评估。
Introduction
视觉问答(VQA)最早被引入视觉和语言联合空间,以弥补自然语言处理和图像理解应用之间的差距(马林诺夫斯基和弗里茨,2014)。大多数VQA基准使用单词嵌入技术和递归神经网络(RNNs)以及一组包括边界框坐标和图像特征向量的对象描述符来计算问题表示。单词和图像表示然后被融合并被馈送到网络以训练VQA模型。然而,当不需要视觉内容以外的知识时,这些方法是实用的。
融入外部知识有几个好处。外部知识和支持事实可以改善图像中检测到的对象之间的关系表示,或者问题中的实体和图像中的对象之间的关系表示。它还提供了如何从问题中得出答案的信息。因此,可以在支持知识库的基础上增加问题的复杂性。组织世界上的事实并将其存储在结构