场景图生成论文阅读笔记 之 LinkNet: Relational Embedding for Scene Graph

NIPS 2018

《LinkNet: Relational Embedding for Scene Graph》

文章贡献:

提出了基于CNN的LinkNet结构,在结构中引入了卷积自注意力机制,最终结果超越MotifsNet达到了当时的SOTA

本文创新:

引入了自注意力机制
② 目标在作为主语和宾语时的特征是不同的(即提取目标特征过程中是受其它目标影响的)
③ 和Motifs Net相似,分为多阶段进行,并利用了目标的类别标签信息
④ 结合了目标的空间位置信息

注:后两点严格来说不算是本文的创新点,是参考了其它论文的方法

网络结构:

整体网络主要可以划分为三个模块:
① Global Context Encoding Module 全局上下文信息编码模块
② Relational Embedding Module 关系嵌入模块 (重点)
③ Geometric Layout Encoding Module 空间位置编码模块

在这里插入图片描述

1、 Global Context Encoding Module 全局上下文信息编码模块

这一部分与其他论文里的做法是相似的,甚至更简单一些。对RPN过后的全局特征图进行AvgPool(全局平均池化)得到context Feature向量c,然后将c拼到每个RoI特征向量的后面即可。
不过这一模块还存在另一分支:将c通过全连接层得到一个作者称为multi-label distribution的向量M’,其元素都是0或1,(表示整张图里的所有类别?)然后可以使用M’与真实标签计算multi-label object classification (gce loss) 损失,可以优化c
在这里插入图片描述

2、 Relational Embedding Module 关系嵌入模块 (重点)

关系嵌入模块主要是由relational Embedding子模块+全连接层堆叠起来的,而relational Embedding子模块本质就是一个卷积自注意力模块,文中给出的计算公式如下:
在这里插入图片描述
与卷积自注意力的操作可以说是完全一样。

在经过两个 relational Embedding+FC的处理后得到了向量O4,然后将O4每行通过argmax操作得到了编码矩阵O4’ (N×类别数,每一行是独热编码的形式), 这就是目标的类别信息
然后再与O3拼接得到矩阵E0,然后输入到下面的模块中。
再来一遍相似的过程,最终得到了N×8192的矩阵E1,每行对应一个目标的作为主语、宾语的特征向量

3、 Geometric Layout Encoding Module 空间位置编码模块

每一个目标对都计算一个位置编码,计算公式如下:
在这里插入图片描述
o指object,s指subject
总共由N(N-1)个组成一个矩阵,这个矩阵最后会用于推断relational中。

4、 关系推断

有了上面的各部分的输出,关系推断部分操作就相对简单了,这里直接贴原文:
在这里插入图片描述

实验结果

在这里插入图片描述
超越了MotifNet达到了当时的SOTA

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值