![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
VQA
文章平均质量分 90
kwang8090
goodman
展开
-
Explainable and Explicit Visual Reasoning over Scene Graphs
Abstarct我们旨在将复杂视觉推理任务中普遍使用的黑盒神经体系结构分解为所提出的可解释和显式神经模块(XNMs),该模块超越了现有的神经模块网络,使用场景图——对象作为节点,成对关系作为边——来用结构化知识进行可解释和显式推理。XNMs 允许让我们更加注意教机器如何“思考”,而不管它们“看起来”是什么样子。正如我们将在本文中展示的,通过使用场景图作为归纳偏差,1)我们可以以简洁和灵活的方式设计XNMs,即XNMs仅由4个元类型组成,这显著地减少了10到100倍的参数数量,以及2)我们可以根据图关..原创 2021-12-30 18:24:04 · 1654 阅读 · 0 评论 -
Explicit Knowledge Incorporation for Visual Reasoning
Abstract现有的可解释的和显式的视觉推理方法只执行基于视觉证据的推理,而不考虑视觉场景之外的知识。为了解决视觉推理方法和真实世界图像的语义复杂性之间的知识差距,我们提出了第一个显式视觉推理方法,该方法结合了外部知识,并对高阶关系注意进行建模,以提高泛化能力和可解释性。具体来说,我们提出了一个知识合并网络,它为来自外部知识库的实体和谓词显式地创建和包含新的图节点,以丰富用于显式推理的场景图的语义。然后,我们创建一个新的图形关联模块,对丰富的场景图进行高阶关系关注。通过明确引入结构化的外部知识和高阶关原创 2021-12-29 17:37:51 · 1346 阅读 · 0 评论 -
Multi-Level Knowledge Injecting for Visual Commonsense Reasoning
摘要——当浏览一幅图像时,人类可以推断出隐藏在图像中的东西,而不是视觉上明显的东西,例如物体的功能、人的意图和精神状态。然而,这种视觉推理范式对计算机来说非常困难,需要了解世界是如何工作的。为了解决这个问题,我们提出了基于常识知识的推理模型(CKRM)来获取外部知识,以支持视觉常识推理(VCR)任务,其中计算机被期望回答具有挑战性的视觉问题。我们的核心思想是:(1)通过多层次知识转移网络注入外部常识知识,实现细胞级、层级和注意力级的联合信息转移,从而弥合识别级和认知级图像理解之间的鸿沟。它可以有效地从不同的原创 2021-12-27 14:59:50 · 1062 阅读 · 0 评论 -
Multi-Modal Answer Validation for Knowledge-Based VQA
基于知识的视觉问答问题除了图像的内容外,还涉及到回答需要外部知识的问题。这种知识通常有多种形式,包括视觉、文本和常识知识。然而,更多知识来源的使用也增加了检索更多不相关或嘈杂事实的机会,使得理解事实和找到答案变得困难。为了应对这一挑战,我们提出了使用外部知识的多模态答案验证,其思想是基于答案特定的知识检索来评估一组候选答案。这与现有的从大量无关事实中寻找答案的方法形成对比。我们的方法旨在了解每个答案应该信任哪些知识来源,以及如何使用该来源验证候选人。我们考虑一个多模态设置,依赖文本和视觉知识资源,包括使用谷原创 2021-12-27 11:12:56 · 1441 阅读 · 0 评论 -
ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)
视觉问答(VQA)是一项耗时很长的任务,越来越受到计算机视觉和自然语言处理领域的关注。目前VQA的研究主要集中在可以通过直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert,用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题,ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph,KG)来推断正确的答案。我们介绍了一种多模态表示,它学习了一种联合概念-视觉-语言嵌入。我们使用ConceptNet KG对常识知识进行编原创 2021-12-25 17:56:05 · 1250 阅读 · 0 评论 -
Modular Graph Attention Network for Complex Visual Relational Reasoning
复杂视觉关系推理的模块化图注意网络Abstract视觉关系推理对于许多基于视觉和语言的任务至关重要,例如视觉问答和视觉语言导航。在这篇文章中,我们考虑了复杂重现表达理解任务的推理,该任务寻求在复杂查询引导的图像中定位目标对象。这种查询通常包含复杂的逻辑,因此对推理提出了两个关键挑战:(1)理解查询可能非常困难,因为它经常引用多个对象并描述它们之间的复杂关系。(ii)在由查询引导的多个对象之间进行推理并正确定位目标是非常重要的。为了应对这些挑战,我们提出了一种新的模块化图形注意力网络(MGA网络)原创 2021-12-24 17:53:39 · 874 阅读 · 0 评论 -
GraphVQA: Language-Guided Graph Neural Networks for Scene Graph Question Answering
用于场景图问答的语言引导图神经网络图片不只是一个对象和属性的集合,他们代表了一个互相连接的对象的关系网,场景图作为图像的结构化图形表示,已经成为一种新的表现形式。场景图将物体编码为通过通过成对边关系连接的节点,...原创 2021-12-24 10:28:55 · 748 阅读 · 0 评论 -
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
GQA:一个用于真实世界视觉推理和合成问题回答的新数据集我们引入了GQA,一个新的用于真实世界视觉推理和合成问题回答的数据集,试图解决先前VQA数据集的主要缺点。我们开发了一个强大而健壮的问题引擎,它利用视觉基因组场景图结构来创建2200万个不同的推理问题,这些问题都带有表示其语义的功能程序。我们使用这些程序来获得对答案分布的严格控制,并提出了一种新的可调平滑技术来减轻问题偏差。伴随数据集的是一套新的衡量标准,用于评估一致性、基础和合理性等基本品质。对基线和最先进的模型进行了仔细的分析,为不同的问题类型原创 2021-12-23 13:53:07 · 1502 阅读 · 0 评论 -
(VQA)LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Que
发表于2020年的一篇文章LRTA神经符号推理框架视觉问答目前的主要方法依赖于“黑盒”神经编码器()对图像问题进行编码,难以为预测过程提供直观的、人类可读的证明形式,本文提出了LRTA: Look Read Think Answer, 模型像人类一样一步一步地解决问题,并在每一步提供人类可读的证明形式。过程:1 学习首先将一幅图像转换成场景图2 将一个问题解析成多条推理指令3 使用循环的神经符号执行模块遍历场景图,一次执行一个推理指令。4 最后生成带有自然语...原创 2021-12-22 14:13:37 · 567 阅读 · 0 评论