Explainable and Explicit Visual Reasoning over Scene Graphs

最新推荐文章于 2022-11-21 11:40:33 发布

薛定猫的谔w

最新推荐文章于 2022-11-21 11:40:33 发布

阅读量420

点赞数 1

文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/110948144

版权

这篇CVPR2019论文提出了一种可解释的神经模块（XNMs），旨在解决复杂视觉推理任务中的黑盒问题。XNMs基于4种元类型，减少参数量，并通过图注意力跟踪推理过程。场景图由节点（对象）和边（关系）构成，XNMs包括 AttendNode、AttendEdge、Transfer 和 Logic 逻辑门操作。推理模块由这些元类型组合而成，而特征输出模块则将注意力信息映射到最终特征表示。实验结果显示了这种方法的有效性。

摘要由CSDN通过智能技术生成

背景

本篇论文是南洋理工大学张含望组的工作，接收于CVPR2019

摘要

题为在场景图上的可解释和明确的视觉推理。作者提出的可解释和明确的神经模块(XNMs)，目标是打破在复杂的视觉推理任务中普遍使用的黑盒神经结构。XNMs仅仅由4种元类型组成，这将大大减少参数量，此外作者称设计的该种模型可以通过图注意力的方式来跟踪推理流程。

方法

论文既然已经提到了场景图，必然要有场景图的构造过程。场景图由图像中的objects组成，即图中的节点集合 $V = \{v_1, · · · , v_N\}$ 以及边集合来表示节点对之间的关系 $E=\{e_{ij}|i,j=1, · · · , v_N\}$ 。实际操作中，以检测到的区域特征作为顶点特征，以两个顶点特征concat后的结果作为它们之间边的特征。

四种元类型：
AttendNode[query]
将问题先encode成query vector $q$ ，作为输入，通过以下函数得到node attention vector（表示各节点权重的向量，第i个节点的权重由 $a_i$ 表示）
$a=f(V,q)\in \R^N$
函数 $f$ 的值域[0,1]