(这里只是记录了论文的一些内容以及自己的一点点浅薄的理解,具体实验尚未恢复。由于本人新人一枚,若有错误以及不足之处,还望不吝赐教)
总结
-
本文关注的问题是 Scene Graph 的生成。通过观察 VG 数据集发现:
- 超过大半的 images,实体对之间的可能关系高度依赖于实体对的标签,反之不是(object labels are highly predictive of relation labels but not vice-versa)
- 同时当某一个 object label 出现时,另外一个 object label 的取值范围就会缩小(in general, the identity of edges involved in a relationship is not highly informative of other elements of the structure while the identities of head or tail provide significant information, both to each other and to edge labels)
论文将这种 regularly appearing substructures(基础) in scene graphs 称为 motifs,并由此提出了 Stacked Motif Networks,是一个用于 capture higher order motifs 的新型网络模型。基于这个发现,提出了一种 simple but powerful baseline: given object detections with labels, predict the most frequent relation between object pairs without visual cues,实验结果发现,该 baseline 的效果不降反升了平均 1.4 个召回率。
模型架构
-
该模型的输入是一幅无任何标注的图像 I I I,输出是图像上所有的视觉三原组。各个阶段如下:
stage 1)
Bounding boxs、利用一个在 VG 上预训练好的 Faster R-CNN 用于对输入图像上的物体的 label 和 bbox 标注出来,其输出是 [ ( b 1 , f 1 , 1 1 ) , … , ( b n , f n , 1 n ) ] [(b_1,\mathbf{f}_1,\mathbf{1}_1),\dots,(b_n,\mathbf{f}_n,\mathbf{1}_n)] [(b1,f1,11),…,(bn,fn,1n)],其中 b i b_i bi 表示区域 i i i, f i \mathbf{f}_i fi 表示该区域的 Faster R-CNN 的feature, 1 i \mathbf{1}_i 1i 表示该区域的 object label 的概率分布向量
stage 2)
Objects。由两种 LSTM 构成,第一种是 biLSTM,用于将来自stage 1的 f i \mathbf{f}_i fi 进行再次编码成具有上下文信息(contextualized information)的特征 c i \mathbf{c}_i ci; 第二种是普通的 LSTM,用于预测在考虑了上下文信息后,该区域的label,表示为 c i ^ \hat{\mathbf{c}_i} ci^(与 1 i \mathbf{1}_i 1i 的不同之处为 1 i \mathbf{1}_i 1i 不考虑上下文信息,故预测的label可能不准确,而 o i ^ \hat{\mathbf{o}_i} oi^ 考虑了上下文信息,预测的label 可能更准确)。该阶段的两种 LSTM 公式如下:
C = biLSTM ( [ f i , W 1 1 i ] i = 1 , … , n ) (1) h i = LSTM ( [ c i , o i − 1 ^ ] ) (2) o