Explainable and Explicit Visual Reasoning over Scene Graphs

Abstarct

我们旨在将复杂视觉推理任务中普遍使用的黑盒神经体系结构分解为所提出的可解释和显式神经模块(XNMs),该模块超越了现有的神经模块网络,使用场景图——对象作为节点成对关系作为边——来用结构化知识进行可解释和显式推理。XNMs 允许让我们更加注意教机器如何“思考”,而不管它们“看起来”是什么样子。正如我们将在本文中展示的,通过使用场景图作为归纳偏差,1)我们可以以简洁和灵活的方式设计XNMs,即XNMs仅由4个元类型组成,这显著地减少了10到100倍的参数数量,以及2)我们可以根据图关注来显式地跟踪推理流程。XNMs如此通用,以至于它们支持各种质量的场景图实现。例如,当图形被完美检测时,XNMs在clever和CLEVR CoGenT上都达到100%的准确率,为视觉推理建立了经验性能上限;当从真实世界的图像中嘈杂地检测到图形时,XNMs仍然能够在VQAv2.0上实现67.5%的竞争性准确率,超过了流行的物体包注意力模型。

Introduction

人工智能的繁荣——在游戏[23]、语音识别[1]和图像识别[8,21]中掌握超人类技能——主要归功于连接主义的“连胜”,更具体地说,是深度神经网络[16],而不是“旧派”的象征主义,他们的争议可以追溯到20世纪50年代人工智能的诞生[19]。有了大量的训练数据和强大的计算资源,深度神经网络的关键优势是端到端的设计,可以推广到大范围的领域,最大限度地减少特定领域知识工程中的人力。然而,在“高级”视觉语言任务中,如视觉问答[4,6,12],仍然可以观察到人和机器之间的巨大差距,这本质上需要复合推理(参见图1)。特别是,最近的研究表明,端到端模型很容易优化,以学习数据集的“捷径偏差”,但不能推理[12]。

 使用建议的XNMs场景图的流程图,可以用检测到的热门类别标签(左侧)或RoI特征向量(右侧的“或”条)来表示。特征颜色与边界框颜色一致。XNMs有4种元类型。红色节点或边表示注意结果。通过训练现成的序列对序列程序生成器,可以获得最终的模块装配[13]。
 

神经模块网络(NMNs) [3,12,10,18,9,27]展示了一个很有前途的方向,通过学习从语言对应方按

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值