2021：Zero-shot Visual Question Answering using Knowledge Graphs使用知识图的零次视觉问答

最新推荐文章于 2024-03-18 20:09:45 发布

VIP文章 weixin_42653320

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量1.2k

点赞数 4

分类专栏：视觉问答知识图文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/118889022

版权

摘要

现在的方法主要采用不同组件的管道方法来学习知识匹配和提取、特征学习等，但是当某些组件性能不佳时，这种管道方法就会受到影响，从而导致错误的传播和整体性能变差。而且，大多现有方法忽视答案偏见问题--即很多答案在训练期间中未出现过。为弥补这些差距，本文提出一种使用知识图谱和基于掩码的学习机制的零次VQA算法，以更好融入外部知识，并为F-VQA数据集提出新的基于答案的零镜头VQA分割。实验表明，我们的方法在未见的答案的零次VQA中实现最佳性能，同时显著增强了通用VQA任务中现有的端到端模型。

代码和数据

一、介绍

大多数现有的VQA不能解决这种答案不能从图像中直接获得，而是依赖外部知识的开放世界场景理解。如图1，Q1的答案在问题和图像之外，Q2和Q3的答案在图像或问题中但需要额外的知识。

一些为开放视觉场景理解而用外部知识的VQA方法有：Marino et al.[16]广泛利用来自Web的非结构化文本信息作为外部信息，但未能解决文本中的噪声（不相关的信息）。Wang et al.[27]首先从图像中提取视觉概念，然后将它们链接到外部知识图(KG)，然后，可以将相应的问题转换为对KG的一系列查询（如SPARQL查询）以检索答案。Zhu等人[31]相反，通过结合视觉概念之间的空间关系和描述性语义关系，以及从KGs中检索到的支持事实，构建一个多模态异构图，然后应用一个模态感知图卷积网络来推断答案。然而，如果管道中的一个模块运行得不好，所有这些方法的性能都会受到巨大的影响。尽管一些端到端模型如[13,2]已经被提出以避免错误级联，但它们仍然是相当初步的，特别是在利用外部知识方面，在许多VQA任务上的性能比管道方法更差。

VQA中另一个重要问题是对有标签的训练数据的依赖，对于新类型的问题或答案，以及图像中新出现的对象，需要收集带标记的元组并从零开始训练模型。针对这一限制，提出Zero-shot VQA(ZS-VQA)旨在预测训练样本中从未出现过的对象、问题或答案。Teney等人解决包含新词的问题，而[22,9]解决包含新对象的图像。然而，这些VQA模型仍然只关注于封闭世界场景理解，没有考虑看不见的答案，且很少充分利用KG。本文利用KG来研究开放世界场景理解的VQA，需要外部知识回答问题，和ZS-VQA，专门解决新答案的子任务。

本文我们提出一种使用KG的ZS-VQA算法和一种基于掩码的学习机制，同时提出了一种新的零次事实VQA(ZS-F-VQA)数据集，即评估ZS-VQA的看不见的答案。首先，分别学习三种不同的特征映射空间，即关系的语义空间、支持实体的对象空间和答案的知识空间，它们都将图像-问题对（I-Q对）与相应目标的联合嵌入对齐。通过所有选择的支持实体和关系的组合，掩码根据映射表决定，映射表包含在一个事实KG中的所有三元组，指导看不见的答案预测的对齐过程。特别是，这些掩码可以作为硬掩码或软掩码使用，这取决于VQA的任务。硬掩码用于ZS-VQA任务；例如，使用ZS-F-VQA数据集，我们的方法实现了最先进的性能，并远优于其他方法（30∼40%）。另一方面，软掩码用于标准的VQA任务；例如，使用F-VQA数据集，我们的方法对基线端到端方法取得了稳定的改进（6∼9%），很好地缓解了管道模型的误差级联问题。

综上所述，主要贡献总结如下：1）提出一个使用KGs的增强ZS-VQA算法，通过掩码来调整答案预测分数，掩码是基于在两个特征空间中的支持实体/关系和融合I-Q对间的排列。2）定义了一个新的ZS-VQA问题，需要外部知识，并考虑看不见的答案，因此开发了一个ZS-F-VQA数据集进行评估。3）我们的基于KG的ZS-VQA算法相当灵活，它可以成功地解决依赖于外部知识的正常VQA任务和ZS-VQA任务，并可以直接增强到现有的端到端的模型。

二、相关工作

2.1 视觉问答

基于知识的VQA：为研究VQA合成外部知识，提出F-VQA,OK-VQA和KVQA数据集，F-VQA中的每个问题都是指相关KG中的一个特定事实的三元组，比如ConceptNet。而OK-VQA是手动标记的，而没有一个有引导的KG作为参考，这导致了其困难。KVQA的目标是问题关于特征间关系的世界知识。我们提出的框架利用端到端和管道方法的优势，我们提高了模型的可转移性，同时有效避免了错误级联，使它对不同任务非常通用，具有鲁棒性，实现了优越的性能。

2.2 零次VQA

零次以解决在不看到训练样本时处理这些新的类。Teney等人[25]首先提出零镜头VQA(ZS-VQA)，并在语言语义方面引入新概念，如果问题或答案中至少有一个新单词，测试样本被视为是看不见的。Ramakrishnan等人[22]通过非结构化外部数据（从视觉和语义层面

最低0.47元/天解锁文章

weixin_42653320

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
2021：Zero-shot Visual Question Answering using Knowledge Graphs使用知识图的零次视觉问答

摘要现在的方法主要采用不同组件的管道方法来学习知识匹配和提取、特征学习等，但是当某些组件性能不佳时，这种管道方法就会受到影响，从而导致错误的传播和整体性能变差。而且，大多现有方法忽视答案偏见问题--即很多答案在训练期间中未出现过。为弥补这些差距，本文提出一种使用知识图谱和基于掩码的学习机制的零镜头VQA算法，以更好融入外部知识，并为F-VQA数据集提出新的基于答案的零镜头VQA分割。实验表明，我们的方法在未见的答案的零镜头VQA中实现最佳性能，同时显著增强了正常VQA任务中现有的端到端模...
复制链接

扫一扫