论文记录:Neural Motifs: Scene Graph Parsing with Global Context (CVPR-18)

(这里只是记录了论文的一些内容以及自己的一点点浅薄的理解,具体实验尚未恢复。由于本人新人一枚,若有错误以及不足之处,还望不吝赐教)

总结

  1. 本文关注的问题是 Scene Graph 的生成。通过观察 VG 数据集发现:

    • 超过大半的 images,实体对之间的可能关系高度依赖于实体对的标签,反之不是(object labels are highly predictive of relation labels but not vice-versa)
    • 同时当某一个 object label 出现时,另外一个 object label 的取值范围就会缩小(in general, the identity of edges involved in a relationship is not highly informative of other elements of the structure while the identities of head or tail provide significant information, both to each other and to edge labels

    论文将这种 regularly appearing substructures(基础) in scene graphs 称为 motifs,并由此提出了 Stacked Motif Networks,是一个用于 capture higher order motifs 的新型网络模型。基于这个发现,提出了一种 simple but powerful baseline: given object detections with labels, predict the most frequent relation between object pairs without visual cues,实验结果发现,该 baseline 的效果不降反升了平均 1.4 个召回率。

2. Key Challenge: devise an efficient mechanism to encode the global context that can directly inform the local predictors.

模型架构

在这里插入图片描述

  1. 该模型的输入是一幅无任何标注的图像 I I I,输出是图像上所有的视觉三原组。各个阶段如下:

    stage 1)
    Bounding boxs、利用一个在 VG 上预训练好的 Faster R-CNN 用于对输入图像上的物体的 label 和 bbox 标注出来,其输出是 [ ( b 1 , f 1 , 1 1 ) , … , ( b n , f n , 1 n ) ] [(b_1,\mathbf{f}_1,\mathbf{1}_1),\dots,(b_n,\mathbf{f}_n,\mathbf{1}_n)] [(b1,f1,11),,(bn,fn,1n)],其中 b i b_i bi 表示区域 i i i f i \mathbf{f}_i fi 表示该区域的 Faster R-CNN 的feature, 1 i \mathbf{1}_i 1i 表示该区域的 object label 的概率分布向量

    stage 2)
    Objects。由两种 LSTM 构成,第一种是 biLSTM,用于将来自stage 1的 f i \mathbf{f}_i fi 进行再次编码成具有上下文信息(contextualized information)的特征 c i \mathbf{c}_i ci; 第二种是普通的 LSTM,用于预测在考虑了上下文信息后,该区域的label,表示为 c i ^ \hat{\mathbf{c}_i} ci^(与 1 i \mathbf{1}_i 1i 的不同之处为 1 i \mathbf{1}_i 1i 不考虑上下文信息,故预测的label可能不准确,而 o i ^ \hat{\mathbf{o}_i} oi^ 考虑了上下文信息,预测的label 可能更准确)。该阶段的两种 LSTM 公式如下:
    C = biLSTM ( [ f i , W 1 1 i ] i = 1 , … , n ) (1) h i = LSTM ( [ c i , o i − 1

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值