VQA系列论文(一)

本文介绍了一种名为MuKEA的多模态知识提取与积累框架,用于知识型视觉问答任务。通过从VQA数据集中学习,模型能够独立于外部知识库,构建包含视觉和语言信息的多模态知识表示。MuKEA使用预训练和微调策略,从VQA样本中抽取多模态知识三元组,并进行可解释推理。实验表明,该模型在OK-VQA和KRVQA数据集上表现出色,特别是在知识无关问题上,但仍有提升空间,如处理基于关系的推理问题。
摘要由CSDN通过智能技术生成

阅读论文:《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题:基于知识的视觉问答的多模态知识提取与积累

来源:CVPR 2022https://arxiv.org/abs/2203.09138
代码:https://github.com/AndersonStra/MuKEA

一、问题提出

一般的基于知识的视觉问答(KB-VQA) 要求具有关联外部知识的能力,以实现开放式跨模态场景理解。

现有的研究主要集中在从结构化知识图中获取相关知识,如ConceptNet和DBpedia,或从非结构化/半结构化知识中获取相关知识,如Wikipedia和Visual Genome。虽然这些知识库通过大规模的人工标注提供了高质量的知识,但一个局限性是,它们从纯文本的知识库中获取相关知识,这些知识库仅包含由一阶谓词或语言描述表示的事实,因此这种知识库很难表示高阶谓词和多模态知识,而这些知识是回答复杂问题所必需的,所以现有的模型无法很好的进行视觉理解。

image-20220330205137677

如何为VQA场景构建与视觉相关且可解释的多模态知识的研究较少。

目标:不使用外部文本为主的知识库,通过VQA数据集学习包含着图片以及问题、回答等多模态信息的综合知识表示。

二、主要模型

image-20220330205339345

本文提出了一种针对KB-VQA任务的多模态知识提取与积累框架(MuKEA)。核心是独立于已有的知识库,通过对VQA样本的观察,积累关系复杂的多模态知识,并基于自积累的知识进行可解释推理。

做法:

(1)提出了一种用显式三元组表示多模态知识单元的模式。

头部实体:问题所指的视觉对象embedding

尾部实体:事实答案的embedding

关系:图像和问题之间的隐性

(2)提出了三个损失函数,从粗到细学习三元组的表示。

(3)在此基础上,提出了一种基于预训练和微调的学习策略,从域外(VQA 2.0)和域内的VQA样本中逐步积累多模态知识,用于可解释推理。

2.1 多模态知识三元组抽取

(h, r, t):h包含由问题聚焦的图像中的视觉内容,t是给定问题-图像对的答案的表示,r描述了包含多模态信息的h和t之间的隐式关系

图像与问题编码:由于预训练的视觉语言模型对模态内隐式关联和跨模态隐式关联的建模能力较强,故利用预训练的LXMERT模型对问题和图像进行编码,在此基础上进一步提取多模态知识三元组。

步骤:

Step1:针对图像,应用Faster R-CNN抽取图像 i i i中的一组对象 O = { o i } i = 1 K ( K = 36 ) O=\left\{o_i\right\}_{i=1}^K\left(K=36\right) O={ oi}i=1K(K=36),并通过视觉特征向量 f i f_i fi(维度为2048维)和空间特征向量 b i b_i bi

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值