Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

摘要——当浏览一幅图像时,人类可以推断出隐藏在图像中的东西,而不是视觉上明显的东西,例如物体的功能、人的意图和精神状态。然而,这种视觉推理范式对计算机来说非常困难,需要了解世界是如何工作的。为了解决这个问题,我们提出了基于常识知识的推理模型(CKRM)来获取外部知识,以支持视觉常识推理(VCR)任务,其中计算机被期望回答具有挑战性的视觉问题。我们的核心思想是:(1)通过多层次知识转移网络注入外部常识知识,实现细胞级、层级和注意力级的联合信息转移,从而弥合识别级和认知级图像理解之间的鸿沟。它可以有效地从不同的角度捕捉知识,提前感知人类的常识。(2)为了进一步促进认知水平上的图像理解,我们提出了一种基于知识的推理方法,该方法可以将转移的知识与视觉内容相关联,并组成推理线索来获得最终答案。在具有挑战性的视觉常识推理数据集VCR上进行的实验验证了我们提出的CKRM方法的有效性,该方法可以显著提高推理性能并达到最先进的精度。

INTRODUCTION

通过对场景的一瞥,人们不仅可以知道场景中明显的东西(例如物体、物体的位置、物体的状态和动作),而且可以推断出许多不明显的事情(例如物体的功能、人的心理状态和即将发生的事情)。目前,计算机算法在图像分类[1]、[2]、目标检测[3]-[5]、动作识别[6]、[7]、场景解析[8]、[9]等识别任务上取得了很大进展。然而,在处理涉及推理的任务,特别是常识性推理时,计算机还有很长的路要走。

推理作为人类的一种重要能力,在人工智能领域受到了广泛关注。在文本理解领域,一个具有代表性的任务是自然语言推理[10](也称为文本蕴涵识别</

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值