Attention based Salient Visual Relationship Detection 202 场景图论文阅读

看这篇论文是参考自:https://zhuanlan.zhihu.com/p/258544615
体现了场景图的一个新的趋势:

从感知的角度出发,开始关注场景图应该表现出图片中的主要内容,这些研究需要回答的就是:1,如何定义“图片主要内容” 2.有没有训练数据
3.这类场景图适合应用在什么应用场景下

Salient 是突出位置,最重要的意思
那就变成了 基于注意力突出视觉检测的关系

摘要:

为了解决之间对观察到的关系都一视同仁的问题,提出了一个实现基于局部和全局关系的先主视觉关系。

介绍:

关系就是用三元组来表示,主要
谓语和宾语三者之间的联系。相比较之前的算法,现在开始尝试关注一小部分显著而有意义的关系了,这个关系是根据:1.输入图像的局部上下文中的视觉特征
2.语义和空间信息 来进行度量

在这里插入图片描述
以这张图为例,也是会关注图像中丰富的关系中相对突出和有意义的关系,就像 person next to hourse 肯定比 sky above shirt要好,但是他是靠什么区别出哪些是更重要的关系呢

AVR模型:

在这里插入图片描述

在给定输入图像情况下,首先利用目标检测模块提取候选目标,每个候选目标在图像中表示为一个类标签和一个边界框。然后把每一对对象输入到基于注意的关系检测模块中,该模块根据输入图像的局部上下文做出决策,预测对象锁表示的关系的概率

Attention based Relationship moduel:

在这里插入图片描述
使用 Fast RCNN进行检索输入图像中的所有对象
然后获得这些对象之后,关键就是从候选对象中获得最显著的视觉关系。

关系预测模型算法:

在这里插入图片描述
在这里插入图片描述

Predicare Prediction Module(谓词预测模块):

构建了多模态融合模型:

该模型集成了被检测对象的视觉特征,空间信息和语义特征
在这里插入图片描述

视觉特征部分:
在这里插入图片描述
最后得到一个 视觉特征F,包含主客体以及局部上下文的视觉信息

空间特征
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Attention Module:注意模块

这个就是比较重要的模块了.他的目的旨在测量聚焦于图像中一对物体的概率。也是基于注意力机制,从对象的视觉,空间和语义信息来测量注意。

在这里插入图片描述
在这里插入图片描述

先验知识

作用是用来提高关系检测的精度,具体做法就是
为先验知识构建一个异构图,把谓词和对象对都表示为节点,而边的权重表示关系在数据集中出现的频率。并且由于关系分布的长尾性,图通常非常的稀疏。因此在对象对的节点之间来添加边去度量他们的相似性,每个边的权重被赋予“对象嵌入向量的相似性”
然后在这个基础之上,通过谓词到对象对的随机游走来推断谓词和对象对之间的依赖关系。还有一些转移矩阵的知识,

实验

数据集采用了两个常见的版本:VG-VtransE和VG-MSDN

结论

还是介绍了一下AVR模型,融合了视觉,空间和语义特征,并且基于注意的机制来区分了关系的重要性,还利用了图像局部上下文的多视信息以为,还利用了整个数据集中的全局上下文。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值