论文阅读:Detecting Visual Relationships with Deep Relational Network(CVPR17)

在这里插入图片描述
(1)目标检测,使用的是FasterRCNN

(2)筛选成对的物体。如果一共有n个bounding box,那么一共有n(n-1)对可供选择的物体对。这么多对物体中,有些是很大概率没有意义的,比如离得太远的物体对,或者两个物体的类别让它们很难产生有意义的关系的这种情况(例如狗和雨伞)

(3)Joint Recognition(联合认知)
按照论文中给出的结构图,这一部分可以划分为左半部分的特征提取与融合,以及右半部分的DR-Net

先说左半部分:

FasterRCNN提取了每个bounding box的feature,此时的pair box已经经过筛选了。对每一对pair box,提取它们的空间特征(Spatial Module)和视觉特征(Apperance Module),将它们cat在一起,并经过两层全连接层得到融合特征。融合特征是后面DR-Net的输入之一。

①Spatial Module
对于主语目标和宾语目标,做出它们的掩模。白色部分表明这部分是主语/宾语的bounding box,下采样到32*32,再经过一些conv layer,得到融合了主客体空间特征的feature vector。

②Apperance Module
用一个CNN去提取成对物体的特征(union bounding box),从引用的文献来看,这里的CNN用的应该是ResNet。论文中说,这一步不仅捕捉到了主客体特征,还捕捉到了环境上下文(surrounding context),这对关系推理是很有用的。

左半部分说完了,再说右半部分的DR-Net:
这个网络的输入是主语和宾语的视觉特征,以及刚才计算的融合特征。

注意这里的qo(宾语),qs(主语),和qr(谓词),它们是叠了很多层的(k层)。qxx表示的意思是概率分布向量。

计算方法如下:
σ是softmax函数。
以qs’为例,在这种迭代计算中,接收最初始的feature(xs),以及上一次迭代的关系概率(qr)和宾语概率(qo)。
大概就是主/客体类别概率+本身特征。
在这里插入图片描述
这样算到最后,qr’就是所有种类谓词的概率了,最大的那个概率就是模型预测的谓词了。至于主客体的类别,应该是直接通过目标检测网络得到的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值