Explainable and Explicit Visual Reasoning over Scene Graphs

这篇CVPR2019论文提出了一种可解释的神经模块(XNMs),旨在解决复杂视觉推理任务中的黑盒问题。XNMs基于4种元类型,减少参数量,并通过图注意力跟踪推理过程。场景图由节点(对象)和边(关系)构成,XNMs包括 AttendNode、AttendEdge、Transfer 和 Logic 逻辑门操作。推理模块由这些元类型组合而成,而特征输出模块则将注意力信息映射到最终特征表示。实验结果显示了这种方法的有效性。
摘要由CSDN通过智能技术生成

背景

本篇论文是南洋理工大学张含望组的工作,接收于CVPR2019

摘要

题为在场景图上的可解释和明确的视觉推理。作者提出的可解释和明确的神经模块(XNMs),目标是打破在复杂的视觉推理任务中普遍使用的黑盒神经结构。XNMs仅仅由4种元类型组成,这将大大减少参数量,此外作者称设计的该种模型可以通过图注意力的方式来跟踪推理流程。

方法

论文既然已经提到了场景图,必然要有场景图的构造过程。场景图由图像中的objects组成,即图中的节点集合 V = { v 1 , ⋅ ⋅ ⋅ , v N } V = \{v_1, · · · , v_N\} V={ v1,,vN}以及边集合来表示节点对之间的关系 E = { e i j ∣ i , j = 1 , ⋅ ⋅ ⋅ , v N } E=\{e_{ij}|i,j=1, · · · , v_N\} E={ eiji,j=1,,vN}。实际操作中,以检测到的区域特征作为顶点特征,以两个顶点特征concat后的结果作为它们之间边的特征

四种元类型:
AttendNode[query]
将问题先encode成query vector q q q,作为输入,通过以下函数得到node attention vector(表示各节点权重的向量,第i个节点的权重由 a i a_i ai表示)
a = f ( V , q ) ∈ R N a=f(V,q)\in \R^N a=f(V,q)RN
函数 f f f的值域[0,1]

AttendEdge[query]
当以input query作为输入时,用于计算edge attention
W = g ( E , q ) W=g(E,q) W=g(E,q)
同样地,函数g的值域也是[0,1]

Transfer
在得到node attention vector a 和edge attention matrix W后,我们需要能够将节点的权重和与其有关联性的边结合起来去寻找新的节点。简单地,即利用上述注意关系来更新节点的权重 a ′ a' a
a ′ = n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值