论文笔记整理:刘克欣,天津大学硕士
链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf
动机
现有的可解释的和显式的视觉推理方法仅执行基于视觉证据的推理,而不考虑视觉场景之外的知识。为了解决视觉推理方法和真实世界图像语义复杂性之间的知识鸿沟,文章提出了第一个显式视觉推理方法,该方法结合了外部知识并对高阶关系注意进行建模,以提高视觉推理的泛化性和可解释性。
亮点
文章的亮点主要包括:
1.首次提出利用外部知识和神经模块来实现可泛化性和可解释性的显示视觉推理模型;2.设计了一个新颖的知识集成网络(Knowledge Incorporation Network, KINet),将外部知识作为额外的节点和边显式地集成到场景图中,为推理提供丰富的语义;3.设计了一个基于场景图拓扑和语义实现高阶关系关注的图相关(Graph-Relate)模块。
<