场景图生成论文阅读笔记之 IMP(Scene Graph Generation by Iterative Message Passing)

流觞时光

于 2021-07-08 21:35:21 发布

阅读量749

点赞数 1

分类专栏：论文阅读笔记文章标签：人工智能算法计算机视觉场景图生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38574198/article/details/118582894

版权

论文阅读笔记专栏收录该内容

18 篇文章

订阅专栏

IMP 2017CVPR

《Scene Graph Generation by Iterative Message Passing》

文章目录

- 《Scene Graph Generation by Iterative Message Passing》

针对问题

前人的工作大多是local prediction，未利用丰富的上下文信息，因此会造成关系类别预测出现模糊和歧义

图的表示

把node(目标)和各个node之间的edge(边)都视为节点，即node节点和edge节点，因为edge也需要具备状态和更新状态，所以把edge也视为节点。
因此每个node节点直接相连的只有edge节点，反之同理，与edge节点直接相连的的只有node节点。不会出现node与node相连的情况。

本文解决方案： “消息传递机制”

个人感觉本质就是
对于node节点，根据与该node节点相连的入边(inbound, 该节点作为宾语的边)和出边(outbound, 该节点作为主语的边)的状态来更新自身的状态。公式如下：
在这里插入图片描述

对于edge节点同理，结合其两端的节点的状态更新自身：
在这里插入图片描述

作者非要扯上场景图是二分图结构…然后提供的图还极具诱导性，我开始还以为那个primal graph 和 dual graph是两个结构相同的独立的图。。。

当然以上均为个人理解，如果有错的话还请大佬指正

网络主要基于GRU实现：

在这里插入图片描述

网络输入

Proposal box的特征图(向量)作为对应node节点的视觉特征；（当然proposal box来源于RPN）
box_i 和box_j 的并集特征作为两者对应节点之间的edge节点的特征；

问题：这里谁做主语，宾语？还是说edge_ij 和edge_ji的起初状态相同？

网络输出

最后一步迭代后node节点和edge节点的状态分别用来推断目标的类别、位置和relationship

其他细节

由计算message的公式中可以发现里面有W,V，这是可训练的参数矩阵，因为作者提到一个节点同时与多个节点相连，但是并不是每个邻居节点对他的贡献都一样，因此更新自身状态时需要为邻居们增加权重（算是一种简单的注意力机制？）

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。