论文阅读:Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

翻译一下题目:针对视觉推理的外部知识整合
一句话简介:用场景图做VR
(仔细VQA和VR还是不同的,就改成VR了)

在这里插入图片描述
论文提出了两个贡献点:
1.Knowledge Incorporation Network,简称KI-Net,用于将外部知识图谱和场景图合并,生成更丰富的场景图
2.Graph Relate模块,简称G-Relate,用于将注意力转移,以获得高维注意力

1.KI-Net
模型框架中的那个黄色的框。输入是由外部数据集生成的知识图谱和由本图像生成的场景图,具体合并过程如下:
在这里插入图片描述
(1)拓扑扩展
把场景图和知识图谱相同含义的结点桥接在一起,比如SG中的snow就和KG中的snow用一条边连了起来,这是为了之后的消息传递
然后给场景图添加新的备选结点:如果场景图中存在某个结点(man),这个结点知识图谱中也有,而且知识图谱中的结点和另一个结点(shirt)是邻接的关系,那么把“另一个结点”和它的谓语加到场景图上,特征用的是知识图谱的特征,即word embedding

(2)语义细化
得到合并的场景图后,先进行一次消息传递,消息传递的方法来自下面这篇论文
Bridging knowledge graphs to generate scene graphs
传递完毕后,每个结点vi就有了自己的特征hi,然后进行另一种消息传递,即图注意力网络,用来计算相关性矩阵。因为从知识图谱中加进去的跟图像不一定有关系。

对于所有的结点,这里的结点包括场景图的物体谓语以及知识图谱的物体谓语
在这里插入图片描述
在这里插入图片描述
mij构成M,就是相关矩阵了

备选结点如果和邻接的结点的相关性分数之和小于某个阈值,就把它丢弃,这里的“结点”我觉得应该只指物体结点。丢弃备选结点的同时把跟它相连的谓语也丢弃。
这样就得到了一个丰富的场景图(enriched scene graph)

2.G-Relate
推理的方式:神经模块网络,论文作者设计了三种模块:attention,logic,output,G-Relate是attention的其中之一
在这里插入图片描述
G-Relate的核心就是计算转移矩阵以转移注意力,Wh就是转移矩阵
在这里插入图片描述

下面是计算转移矩阵的方法:
在这里插入图片描述
uij={U1,U2,…,Un},为i到j的路径
上图中从phone到coffee有两条路径
在这里插入图片描述
lij为拓扑距离,L为规定的长度
拓扑距离为1:一阶关联
拓扑距离在1~L之间:高阶关联
拓扑距离超过L:不认为有关联

----------------------------------一些碎碎念-----------------------------------
今天是开学的第二天。
我不想上课。

昨天买了个奥利奥千层蛋糕
希望不要踩雷。

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值