Attention based Salient Visual Relationship Detection 202 场景图论文阅读

最新推荐文章于 2024-08-09 15:32:31 发布

关切得大神

最新推荐文章于 2024-08-09 15:32:31 发布

阅读量232

点赞数 1

分类专栏：深度学习数字图像处理文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41115379/article/details/118368519

版权

深度学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数字图像处理

8 篇文章 0 订阅

订阅专栏

看这篇论文是参考自：https://zhuanlan.zhihu.com/p/258544615
体现了场景图的一个新的趋势：

从感知的角度出发，开始关注场景图应该表现出图片中的主要内容，这些研究需要回答的就是：1，如何定义“图片主要内容” 2.有没有训练数据
3.这类场景图适合应用在什么应用场景下

Salient 是突出位置，最重要的意思
那就变成了 基于注意力突出视觉检测的关系

摘要：

为了解决之间对观察到的关系都一视同仁的问题，提出了一个实现基于局部和全局关系的先主视觉关系。

介绍：

关系就是用三元组来表示，主要
谓语和宾语三者之间的联系。相比较之前的算法，现在开始尝试关注一小部分显著而有意义的关系了，这个关系是根据：1.输入图像的局部上下文中的视觉特征
2.语义和空间信息来进行度量

在这里插入图片描述
以这张图为例，也是会关注图像中丰富的关系中相对突出和有意义的关系，就像 person next to hourse 肯定比 sky above shirt要好，但是他是靠什么区别出哪些是更重要的关系呢

AVR模型：

在这里插入图片描述

在给定输入图像情况下，首先利用目标检测模块提取候选目标，每个候选目标在图像中表示为一个类标签和一个边界框。然后把每一对对象输入到基于注意的关系检测模块中，该模块根据输入图像的局部上下文做出决策，预测对象锁表示的关系的概率

Attention based Relationship moduel：

在这里插入图片描述
使用 Fast RCNN进行检索输入图像中的所有对象
然后获得这些对象之后，关键就是从候选对象中获得最显著的视觉关系。

关系预测模型算法：

在这里插入图片描述

Predicare Prediction Module(谓词预测模块）：

构建了多模态融合模型：

该模型集成了被检测对象的视觉特征，空间信息和语义特征

视觉特征部分：
在这里插入图片描述
最后得到一个视觉特征F，包含主客体以及局部上下文的视觉信息

空间特征
在这里插入图片描述

Attention Module:注意模块

这个就是比较重要的模块了.他的目的旨在测量聚焦于图像中一对物体的概率。也是基于注意力机制，从对象的视觉，空间和语义信息来测量注意。

在这里插入图片描述

先验知识

作用是用来提高关系检测的精度，具体做法就是
为先验知识构建一个异构图，把谓词和对象对都表示为节点,而边的权重表示关系在数据集中出现的频率。并且由于关系分布的长尾性，图通常非常的稀疏。因此在对象对的节点之间来添加边去度量他们的相似性，每个边的权重被赋予“对象嵌入向量的相似性”
然后在这个基础之上，通过谓词到对象对的随机游走来推断谓词和对象对之间的依赖关系。还有一些转移矩阵的知识，

实验

数据集采用了两个常见的版本：VG-VtransE和VG-MSDN

结论

还是介绍了一下AVR模型，融合了视觉，空间和语义特征，并且基于注意的机制来区分了关系的重要性，还利用了图像局部上下文的多视信息以为，还利用了整个数据集中的全局上下文。

关切得大神

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。