论文阅读:Neural Motifs Scene Graph Parsing with Global Context(CVPR18)

MOTIF把场景图的生成分解成了以下三部分:
在这里插入图片描述
(1)第一部分:Pr(B | I),给定image输出bounding box,标准的目标检测模型

(2)第二部分:Pr(O | B, I),给定image和bounding box,输出对象的类别标签

(3)第三部分:Pr(R | B, O, I),给定image,bounding box和对象的类别标签,预测关系类别(给定物体类别标签是因为作者发现确定主客体的类别,对最终的关系预测有很大的作用)

具体模型:
(1)第一部分:标准目标检测,这里论文用的是Faster RCNN
(2)第二部分:encoder-decoder
①对象上下文Context,序列化bounding box,得到每一个bounding box的全局上下文表示
在这里插入图片描述
②每个边界框可由C解码出对象类别标签,oi用于后面
在这里插入图片描述
(3)第三部分:
①关系上下文,序列化bounding box的类别标签,得到融合了全局bounding box信息和类别信息的 全局表示。
在这里插入图片描述
②由两个bounding box的全局信息解码出它俩之间的关系类别
gi,j 边界框i和边界框j的之间的关系编码
woi,oj:特定主客体的频率先验
在这里插入图片描述
计算所有种类关系的概率
在这里插入图片描述
关系数量是平方级的,i→j, j→i

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值