论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答

本文介绍了IJCAI2020会议上的一篇论文,研究了如何在视觉问答任务中结合多模态信息进行知识推理。论文提出了一种名为Mucko的模型,该模型通过构建视觉图、语义图和事实图,再进行模态内知识选择和跨模态知识推理,提高了VQA的准确性。在FVQA、Visual7W KB和OK-VQA数据集上,Mucko模型相比于其他方法表现出色。
摘要由CSDN通过智能技术生成

论文笔记整理:陈卓,浙江大学计算机科学与技术系,博士研究生。


论文链接:https://arxiv.org/pdf/2006.09073

代码:https://github.com/astro-zihao/mucko

发表会议:IJCAI 2020

任务定义及背景

VQA(视觉问答)顾名思义,也就是结合视觉的信息来回答问题。其于15年被提出,涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,近年来取得了长足发展。其中18年Qi Wu等人提出的FVQA[2],提出引入外部知识的KB-VQA问题,并贡献了这方面的重要数据集,该数据集特点是要回答问题必须依赖图片以外知识。同时,提出了一种对应解决该问题的方法与思路。

Out of the box[3]这篇文章,简称OB,则基于FVQA数据集,将视觉与外部知识信息融合后用图卷积网络来解KB-VQA问题。效果比FVQA的Sota要好。把它从58.7%提升到了69.3%。以上是本文工作的背景。

                                          

动机

作者对比了前人的工作,一个方向是将问题转化成关键词,然后在候选事实中根据关键词匹配检索出对应的支撑事实的pineline方式,比如前文所提的FVQA,但是如果视觉概念没有被问题完全提及(比如同义词和同形异义词)或者事实图中未捕获提及的信息(比如它问红色的柱子是什么,却没有提到消防栓),那这类方法就会因为匹配而产生误差。

另一个方向将视觉信息引入到知识图中,通过GCN推导出答案,就比如前文提到的out of the box模型。虽然解决了上面的问题但是每个节点都引入了相同且全部的视觉信息,而只有

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值