阅读论文:《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》
标题:基于知识的视觉问答的多模态知识提取与积累
来源:CVPR 2022https://arxiv.org/abs/2203.09138
代码:https://github.com/AndersonStra/MuKEA
一、问题提出
一般的基于知识的视觉问答(KB-VQA) 要求具有关联外部知识的能力,以实现开放式跨模态场景理解。
现有的研究主要集中在从结构化知识图中获取相关知识,如ConceptNet和DBpedia,或从非结构化/半结构化知识中获取相关知识,如Wikipedia和Visual Genome。虽然这些知识库通过大规模的人工标注提供了高质量的知识,但一个局限性是,它们从纯文本的知识库中获取相关知识,这些知识库仅包含由一阶谓词或语言描述表示的事实,因此这种知识库很难表示高阶谓词和多模态知识,而这些知识是回答复杂问题所必需的,所以现有的模型无法很好的进行视觉理解。
如何为VQA场景构建与视觉相关且可解释的多模态知识的研究较少。
目标:不使用外部文本为主的知识库,通过VQA数据集学习包含着图片以及问题、回答等多模态信息的综合知识表示。
二、主要模型
本文提出了一种针对KB-VQA任务的多模态知识提取与积累框架(MuKEA)。核心是独立于已有的知识库,通过对VQA样本的观察,积累关系复杂的多模态知识,并基于自积累的知识进行可解释推理。
做法:
(1)提出了一种用显式三元组表示多模态知识单元的模式。
头部实体:问题所指的视觉对象embedding
尾部实体:事实答案的embedding
关系:图像和问题之间的隐性
(2)提出了三个损失函数,从粗到细学习三元组的表示。
(3)在此基础上,提出了一种基于预训练和微调的学习策略,从域外(VQA 2.0)和域内的VQA样本中逐步积累多模态知识,用于可解释推理。
2.1 多模态知识三元组抽取:
(h, r, t):h包含由问题聚焦的图像中的视觉内容,t是给定问题-图像对的答案的表示,r描述了包含多模态信息的h和t之间的隐式关系
图像与问题编码:由于预训练的视觉语言模型对模态内隐式关联和跨模态隐式关联的建模能力较强,故利用预训练的LXMERT模型对问题和图像进行编码,在此基础上进一步提取多模态知识三元组。
步骤:
Step1:针对图像,应用Faster R-CNN抽取图像 i i i中的一组对象 O = { o i } i = 1 K ( K = 36 ) O=\left\{o_i\right\}_{i=1}^K\left(K=36\right) O={ oi}i=1K(K=36),并通过视觉特征向量 f i f_i fi(维度为2048维)和空间特征向量 b i b_i bi