论文记录：Neural Motifs: Scene Graph Parsing with Global Context (CVPR-18)

最新推荐文章于 2024-08-16 08:07:32 发布

chenhch8

最新推荐文章于 2024-08-16 08:07:32 发布

阅读量2.6k

点赞数 6

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deepinC/article/details/86419186

版权

本文介绍了CVPR18年的一篇论文，研究重点是Scene Graph的生成。作者提出了Motifs概念，用以捕捉场景图中的高级结构，并构建了Stacked Motif Networks。论文发现，物体标签对关系预测具有高预测性，但反之不成立。模型包括三个阶段：物体检测、上下文增强的对象预测和关系预测。实验结果显示，即使不依赖视觉线索，仅依据物体标签也能有效预测关系。

摘要由CSDN通过智能技术生成

（这里只是记录了论文的一些内容以及自己的一点点浅薄的理解，具体实验尚未恢复。由于本人新人一枚，若有错误以及不足之处，还望不吝赐教）

总结

本文关注的问题是 Scene Graph 的生成。通过观察 VG 数据集发现：
- 超过大半的 images，实体对之间的可能关系高度依赖于实体对的标签，反之不是（object labels are highly predictive of relation labels but not vice-versa）
- 同时当某一个 object label 出现时，另外一个 object label 的取值范围就会缩小（in general, the identity of edges involved in a relationship is not highly informative of other elements of the structure while the identities of head or tail provide significant information, both to each other and to edge labels）
论文将这种 regularly appearing substructures(基础) in scene graphs 称为 motifs，并由此提出了 Stacked Motif Networks，是一个用于 capture higher order motifs 的新型网络模型。基于这个发现，提出了一种 simple but powerful baseline: given object detections with labels, predict the most frequent relation between object pairs without visual cues，实验结果发现，该 baseline 的效果不降反升了平均 1.4 个召回率。

2. Key Challenge: devise an efficient mechanism to encode the global context that can directly inform the local predictors.

模型架构

在这里插入图片描述

该模型的输入是一幅无任何标注的图像 $I$ ，输出是图像上所有的视觉三原组。各个阶段如下：

stage 1）
Bounding boxs、利用一个在 VG 上预训练好的 Faster R-CNN 用于对输入图像上的物体的 label 和 bbox 标注出来，其输出是 $[(b_1,\mathbf{f}_1,\mathbf{1}_1),\dots,(b_n,\mathbf{f}_n,\mathbf{1}_n)]$ ，其中 $b_i$ 表示区域 $i$ ， $\mathbf{f}_i$ 表示该区域的 Faster R-CNN 的feature， $\mathbf{1}_i$ 表示该区域的 object label 的概率分布向量

stage 2）
Objects。由两种 LSTM 构成，第一种是 biLSTM，用于将来自stage 1的 $\mathbf{f}_i$ 进行再次编码成具有上下文信息（contextualized information）的特征 $\mathbf{c}_i$ ；第二种是普通的 LSTM，用于预测在考虑了上下文信息后，该区域的label，表示为 $\hat{\mathbf{c}_i}$ （与 $\mathbf{1}_i$ 的不同之处为 $\mathbf{1}_i$ 不考虑上下文信息，故预测的label可能不准确，而 $\hat{\mathbf{o}_i}$ 考虑了上下文信息，预测的label 可能更准确）。该阶段的两种 LSTM 公式如下：

最低0.47元/天解锁文章

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。