基于事实的可视化问题回答的多层跨模态知识推理

本文提出了一种基于多模态异构图的FVQA方法,通过模态内和跨模态图卷积选择与问题相关的信息。通过构建视觉、语义和事实图层,模型能进行细粒度的知识选择和推理,以提高基于事实的视觉问答的准确性。
摘要由CSDN通过智能技术生成

基于事实的可视化问题回答的多层跨模态知识推理

(FVQA)基于事实的视觉问答:通过对图像和事实知识库的联合分析来回答问题

1.论文概要

现有的FVQA技术存在一个局限:没有细粒度的选择就直接嵌入各种信息,这样会带来很多噪声,基于这个局限本文认为捕捉问题导向和信息互补的证据是这个解决这个问题的关键。为此本文用多模态异构图来描述图像,包含了图像的:视觉,语义,事实的多层信息。又在此基础上提出了一种感知模式的异构图卷积网络。来捕获来自不同层的与给定问题最相关的证据。
具体来说:模态内图卷积在每一个模态中选择证据,而跨模态图卷积在不同模态聚合相关信息。

2.图像的描述

本文将图像描述为一个多模态异构图,它包含了对应于不同模态的多层信息,该模型主要研究多层模态知识推理。首先通过三层图形编码图像,对象的外观和关系保存在视觉层语义层提供了连接视觉信息和事实信息之间的高层次抽象,,还有事实知识支持的事实层

本文研究中的异构图包含多个子图层,每一层由来自不同模式的节点和边组成。对于这个特定的约束,我们提出了内模态和跨模态图卷积,用于对多模态异构图进行推理。

步骤:
首先模态内知识选择过程在问题的引导下从各图层收集面向问题的信息。然后,跨模态知识推理过程捕获不同层次的互补证据。
在这里插入图片描述

3. 方法

知识库由三元素表示:< e1, r, e2>
其中e1是图像中的视觉概念,e2是属性或短语,r表示e1和e2之间的关系。
关键是从支持事实中选择一个正确的实体,即e1或e2作为预测答案。在这里插入图片描述
图2:我们模型的概述。该模型包含两个模块:多模态异构图构建,旨在用多层图来描述一幅图像;跨模态异构图推理支持模内和跨模态证据选择。

如前面介绍所示:首先采用多层图描述图像,然后进行跨模态异构图推理。
该推理包括两部分:
模内知识选择:通过模内图卷积从每层图中选择面向问题的知识;
跨模态知识推理:通过跨模态图卷积自适应地在三层图中选择互补证据。通过对上述两个过程的多次叠加,我们的模型在所有的模态上进行迭代推理,并通过对所有实体的联合分析得到最优答案。

3.1 多模态图构建

3.1.1 视觉图构建

采用完全连接的视觉图来表示这些证据。采用Faster-RCNN提取的K=36个的图像特征,每一个对象oi都和一个视觉特征向量vi(2048),空间特征向量bi(4)相关联。bi=[xi,yi,wi,hi]左上角的坐标,以及包围框的高度和宽度。我们构造一个可是图 G V = ( V V , E V ) / O G^V=(V^V,E^V)/O GV=(VV,EV)/O , V V = { v i V } K = 1 i = 1 V^V=\{v_i^V\}^K=1_i=1 VV={ viV}K=1i=<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值