Neural-Motifs(CVPR2018)
文章链接
官方github
Paper给motif的定义是:regularly appearing substructures in scene graph。
换句话说,subject和object的label对它们的relation影响很大,和DR-net差不多的想法,不过用了更复杂的网络来实现。基于motif的想法,paper提出了一个新的strong的baseline,直接用统计的relation关于物体label的条件频率进行预测,竟然state-of-art结果高,而再加上只有overlap的物体间才有关系时,结果更高了,而paper提出的方法,在这个strong baseline上只提高了1%左右,非常少。
Paper使用了基于vgg-16的faster R-CNN但是在visual genome数据集上finetune了detector。训练motif-net时,最开始使用object的ground truth训练,还采样了一些negtive relation,应该就是none relation吧,得到的网络用来进行predicate classification很好,但是和detector一起工作效果就很差了,于是paper又将detector和motif-net连接到一起,end-to-end的训练&#