(这里只是记录了论文的一些内容以及自己的一点点浅薄的理解,具体实验尚未恢复。由于本人新人一枚,若有错误以及不足之处,还望不吝赐教)
总结
-
本文关注的问题是 Scene Graph 的生成。通过观察 VG 数据集发现:
- 超过大半的 images,实体对之间的可能关系高度依赖于实体对的标签,反之不是(object labels are highly predictive of relation labels but not vice-versa)
- 同时当某一个 object label 出现时,另外一个 object label 的取值范围就会缩小(in general, the identity of edges involved in a relationship is not highly informative of other elements of the structure while the identities of head or tail provide significant information, both to each other and to edge labels)
论文将这种 regularly appearing substructures(基础) in scene graphs 称为 motifs,并由此提出了 Stacked Motif Networks,是一个用于 capture higher order motifs 的新型网络模型。基于这个发现,提出了一种 simple but powerful baseline: given object detections with labels, predict the most frequent relation between object pairs without visual cues,实验结果发现,该 baseline 的效果不降反升了平均 1.4 个召回率。
模型架构

-
该模型的输入是一幅无任何标注的图像 III,输出是图像上所有的视觉三原组。各个阶段如下:
stage 1)
Bounding boxs、利用一个在 VG 上预训练好的 Faster R-CNN 用于对输入图像上的物体的 label 和 bbox 标注出来,其输出是 [(b1,f1,11),…,(bn,fn,1n)][(b_1,\mathbf{f}_1,\mathbf{1}_1),\dots,(b_n,\mathbf{f}_n,\mathbf{1}_n)][(b1,f1,11),…,(bn,fn,1n)],其中 bib_ibi 表示区域 iii,fi\mathbf{f}_ifi 表示该区域的 Faster R-CNN 的feature,1i\mathbf{1}_i1i 表示该区域的 object label 的概率分布向量
stage 2)
Objects。由两种 LSTM 构成,第一种是 biLSTM,用于将来自stage 1的 fi\mathbf{f}_ifi 进行再次编码成具有上下文信息(contextualized information)的特征 ci\mathbf{c}_ici; 第二种是普通的 LSTM,用于预测在考虑了上下文信息后,该区域的label,表示为 ci^\hat{\mathbf{c}_i}ci^(与 1i\mathbf{1}_i1i 的不同之处为 1i\mathbf{1}_i1i 不考虑上下文信息,故预测的label可能不准确,而 oi^\hat{\mathbf{o}_i}oi^ 考虑了上下文信息,预测的label 可能更准确)。该阶段的两种 LSTM 公式如下:
C=biLSTM([fi,W11i]i=1,…,n)(1)hi=LSTM([ci,oi−1^])(2)o^i=argmax(Wohi)∈R∣C∣ (one-hot)(3) \begin{array}{llll} \mathbf{C} &=& \text{biLSTM}([\mathbf{f}_i, \mathbf{W}_1\mathbf{1}_i]_{i=1,\dots,n}) & \text{(1)} \\ \mathbf{h}_i &=& \text{LSTM}([\mathbf{c}_i, \hat{\mathbf{o}_{i-1}}]) &\text{(2)} \\ \mathbf{\hat{o}}_i &=& \arg\max(\mathbf{W}_o\mathbf{h}_i) \in R^{|\mathcal{C}|} \ (\text{one-hot}) & \text{(3)} \end{array} Ch

本文介绍了CVPR18年的一篇论文,研究重点是Scene Graph的生成。作者提出了Motifs概念,用以捕捉场景图中的高级结构,并构建了Stacked Motif Networks。论文发现,物体标签对关系预测具有高预测性,但反之不成立。模型包括三个阶段:物体检测、上下文增强的对象预测和关系预测。实验结果显示,即使不依赖视觉线索,仅依据物体标签也能有效预测关系。
最低0.47元/天 解锁文章
595

被折叠的 条评论
为什么被折叠?



