论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

糖豆豆今天也要努力鸭

已于 2022-03-04 11:24:20 修改

阅读量2.9k

点赞数 4

分类专栏：机器学习文章标签：计算机视觉场景图 scene graph 视觉推理 VQA

于 2022-03-01 11:30:46 首次发布

本文链接：https://blog.csdn.net/qq_40349484/article/details/123200977

版权

机器学习专栏收录该内容

37 篇文章 3 订阅

订阅专栏

翻译一下题目：针对视觉推理的外部知识整合
一句话简介：用场景图做VR
（仔细VQA和VR还是不同的，就改成VR了）

在这里插入图片描述
论文提出了两个贡献点：
1.Knowledge Incorporation Network，简称KI-Net，用于将外部知识图谱和场景图合并，生成更丰富的场景图
2.Graph Relate模块，简称G-Relate，用于将注意力转移，以获得高维注意力

1.KI-Net
模型框架中的那个黄色的框。输入是由外部数据集生成的知识图谱和由本图像生成的场景图，具体合并过程如下：
在这里插入图片描述
（1）拓扑扩展
把场景图和知识图谱相同含义的结点桥接在一起，比如SG中的snow就和KG中的snow用一条边连了起来，这是为了之后的消息传递
然后给场景图添加新的备选结点：如果场景图中存在某个结点(man)，这个结点知识图谱中也有，而且知识图谱中的结点和另一个结点(shirt)是邻接的关系，那么把“另一个结点”和它的谓语加到场景图上，特征用的是知识图谱的特征，即word embedding

（2）语义细化
得到合并的场景图后，先进行一次消息传递，消息传递的方法来自下面这篇论文
Bridging knowledge graphs to generate scene graphs
传递完毕后，每个结点vi就有了自己的特征hi，然后进行另一种消息传递，即图注意力网络，用来计算相关性矩阵。因为从知识图谱中加进去的跟图像不一定有关系。

对于所有的结点，这里的结点包括场景图的物体谓语以及知识图谱的物体谓语
在这里插入图片描述

mij构成M，就是相关矩阵了

备选结点如果和邻接的结点的相关性分数之和小于某个阈值，就把它丢弃，这里的“结点”我觉得应该只指物体结点。丢弃备选结点的同时把跟它相连的谓语也丢弃。
这样就得到了一个丰富的场景图(enriched scene graph)

2.G-Relate
推理的方式：神经模块网络，论文作者设计了三种模块：attention，logic，output，G-Relate是attention的其中之一
在这里插入图片描述
G-Relate的核心就是计算转移矩阵以转移注意力，Wh就是转移矩阵

下面是计算转移矩阵的方法：
在这里插入图片描述
uij={U1,U2,…,Un}，为i到j的路径
上图中从phone到coffee有两条路径

lij为拓扑距离，L为规定的长度
拓扑距离为1：一阶关联
拓扑距离在1~L之间：高阶关联
拓扑距离超过L：不认为有关联

----------------------------------一些碎碎念-----------------------------------
今天是开学的第二天。
我不想上课。

昨天买了个奥利奥千层蛋糕
希望不要踩雷。

糖豆豆今天也要努力鸭

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)

论文阅读：Explicit Knowledge Incorporation for Visual Reasoning(CVPR21)
复制链接

扫一扫

专栏目录