MOTIF把场景图的生成分解成了以下三部分:
(1)第一部分:Pr(B | I),给定image输出bounding box,标准的目标检测模型
(2)第二部分:Pr(O | B, I),给定image和bounding box,输出对象的类别标签
(3)第三部分:Pr(R | B, O, I),给定image,bounding box和对象的类别标签,预测关系类别(给定物体类别标签是因为作者发现确定主客体的类别,对最终的关系预测有很大的作用)
具体模型:
(1)第一部分:标准目标检测,这里论文用的是Faster RCNN
(2)第二部分:encoder-decoder
①对象上下文Context,序列化bounding box,得到每一个bounding box的全局上下文表示
②每个边界框可由C解码出对象类别标签,oi用于后面
(3)第三部分:
①关系上下文,序列化bounding box的类别标签,得到融合了全局bounding box信息和类别信息的 全局表示。
②由两个bounding box的全局信息解码出它俩之间的关系类别
gi,j 边界框i和边界框j的之间的关系编码
woi,oj:特定主客体的频率先验
计算所有种类关系的概率
关系数量是平方级的,i→j, j→i