Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

最新推荐文章于 2024-03-16 21:33:18 发布

kwang8090

最新推荐文章于 2024-03-16 21:33:18 发布

阅读量1k

点赞数

分类专栏： VQA 文章标签：计算机视觉人工智能神经网络

本文链接：https://blog.csdn.net/wangxiaoxiaodeer/article/details/122169292

版权

本文提出了一种基于常识知识的推理模型CKRM，通过多层次知识转移网络和基于知识的推理方法，提升计算机在视觉常识推理任务中的性能。CKRM旨在弥补识别级与认知级图像理解的差距，通过细胞级、层级和注意力级的知识注入，以及知识与视觉内容的关联推理，提高了VCR任务的准确率。

摘要由CSDN通过智能技术生成

摘要——当浏览一幅图像时，人类可以推断出隐藏在图像中的东西，而不是视觉上明显的东西，例如物体的功能、人的意图和精神状态。然而，这种视觉推理范式对计算机来说非常困难，需要了解世界是如何工作的。为了解决这个问题，我们提出了基于常识知识的推理模型(CKRM)来获取外部知识，以支持视觉常识推理(VCR)任务，其中计算机被期望回答具有挑战性的视觉问题。我们的核心思想是:(1)通过多层次知识转移网络注入外部常识知识，实现细胞级、层级和注意力级的联合信息转移，从而弥合识别级和认知级图像理解之间的鸿沟。它可以有效地从不同的角度捕捉知识，提前感知人类的常识。(2)为了进一步促进认知水平上的图像理解，我们提出了一种基于知识的推理方法，该方法可以将转移的知识与视觉内容相关联，并组成推理线索来获得最终答案。在具有挑战性的视觉常识推理数据集VCR上进行的实验验证了我们提出的CKRM方法的有效性，该方法可以显著提高推理性能并达到最先进的精度。

INTRODUCTION

通过对场景的一瞥，人们不仅可以知道场景中明显的东西(例如物体、物体的位置、物体的状态和动作)，而且可以推断出许多不明显的事情(例如物体的功能、人的心理状态和即将发生的事情)。目前，计算机算法在图像分类[1]、[2]、目标检测[3]-[5]、动作识别[6]、[7]、场景解析[8]、[9]等识别任务上取得了很大进展。然而，在处理涉及推理的任务，特别是常识性推理时，计算机还有很长的路要走。

推理作为人类的一种重要能力，在人工智能领域受到了广泛关注。在文本理解领域，一个具有代表性的任务是自然语言推理[10](也称为文本蕴涵识别</

最低0.47元/天解锁文章

kwang8090

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Multi-Level Knowledge Injecting for Visual Commonsense Reasoning

摘要——当浏览一幅图像时，人类可以推断出隐藏在图像中的东西，而不是视觉上明显的东西，例如物体的功能、人的意图和精神状态。然而，这种视觉推理范式对计算机来说非常困难，需要了解世界是如何工作的。为了解决这个问题，我们提出了基于常识知识的推理模型(CKRM)来获取外部知识，以支持视觉常识推理(VCR)任务，其中计算机被期望回答具有挑战性的视觉问题。我们的核心思想是:(1)通过多层次知识转移网络注入外部常识知识，实现细胞级、层级和注意力级的联合信息转移，从而弥合识别级和认知级图像理解之间的鸿沟。它可以有效地从不同的
复制链接

扫一扫

专栏目录