Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读

最新推荐文章于 2022-04-26 10:37:20 发布

关切得大神

最新推荐文章于 2022-04-26 10:37:20 发布

阅读量391

点赞数 1

分类专栏：数字图像处理深度学习文章标签： python 机器学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41115379/article/details/118368680

版权

深度学习同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数字图像处理

8 篇文章 0 订阅

订阅专栏

摘要

场景图反应了人对图像内容的感知，“当人的固有感知习惯存在的时候，会在场景分离过程中存在一个人类偏好的层次结构。它把场景定义成
一系列图像区域组成的仿人层次示意图（Hierarchical Entity Tree),具体流程就是用混合LSTM（Hybrid
LSTM),并且为了确定场景图中关键关系的优先级，设计了一个关系排序模块( relation ranking module
RRM),通过铉锡从客观实体的显著性和大小中获取人类的主观感知习惯、

介绍

在这里插入图片描述

因为场景图在图像描述中的巨大作用，所以他很需要有的一个特征就是评估关系在一张图中的重要性，并且有限考虑人类想要传达的事件关系。
现在存在的问题就是：
1.在主流数据集中三重关系分布不均衡的现象
2.就如a b这两个图像为例，明明主要事件很不同，但是场景图基本相同，所以现在的方法在挖掘图像上的特定关系方面不够，而偏重琐碎和不言而喻的关系，这些不能传达图像的要点（为什么呢）
所以为此他们提出了一个以人为主的分层结构模型

具体思路就是：把层次结构的思想引入到SGG任务中，并尝试优先检测关键关系，再检测琐碎关系以获得完整性

相关工作

研究了凝视数据“gaze data"，表明人类能凝视到图像中的95%的物体，但是在人对图像的描述中，只有48%的物体被提及。
这里有两种描述应该一种是这个图里有什么的描述和这个图在讲什么的描述

并且表明，描述中提到的对象（人类认为重要并且应构成重大事件/图像要点的对象）几乎在视觉上是显著的，并揭示了人注视的位置，但人所看到的(视觉上显著的对象）不总是他们想要传达的东西

方式

HET构建

目的就是构建一个层次结构。自上而下的层次与人类固定的感知层次相一致。他们的方法是讲较大的实体尽可能的靠近HET的根部。根部是0o,其他实体都是按照大小降序。

在这里插入图片描述

结构化上下文编码和场景图生成

全是公式。。。

关系排序模块

现在是已经得到一个基于HET的层次化场景图。为此设计了一个RRM来对关键关系进行排序。这个模型是基于视觉显著性和实体大小

DSS模型预测图像的像素显著性
在这里插入图片描述

训练和评估

有一个VG-KR的数据集
在这里插入图片描述
其中有个结论就是：显著性和大小信息都有助于发现关键关系，并且显著性的效果要略好于大小信息。

结论：

提出了一种新的场景图建模方法，生成了一个仿人层次场景图，并对关键关系进行排序，提出了一个RRM模型用来判断哪些是关键关系

动机详解

描述中提到的对象（也就是人认为重要并应构成重大事件的对象）在视觉上几乎显著的，并揭示了人注视的地方。但人所看到的（视觉上显著的对象）并不一定是他们一开始想要传达的东西

视觉上突出的物体并总是构成图像中的主要事件，也不总是人类最初想要从图像中传达的东西

例子：

在这里插入图片描述

还有个创新点是构造了一个新的数据集 VG-KR

VG数据集是稠密标注，而COCO描述图片的主要内容，并且两个数据集的图片存在较大的交集。所有他们把那些被COCO提及的视觉关系作为 key
relationship，从而构建一个新的数据集用于场景图生成

构建过程：

在这里插入图片描述

RRM模型：

关于筛选关键关系信息：

首先要知道
关键关系是从标题中提取出来的关系，而标题中的三元组关系一般都不多，毕竟标题只需要描述主要内容，不注重细节。而判断谓词是否属于关键关系，也是选那些语义丰富的动词。比如
抛出，剪，刷这种属于特定图像的。像 in of这种携带的信息很少，就不太构成信息了

在这里插入图片描述

定义认知显著性：

在这里插入图片描述

得出的结论就是

一个包含视觉显著性和物体大小的指标可能有主语确定关键关系（为什么呢，是因为这个指标是属于视觉显著性加物体大小的
他越大，对应的认知显著性就越大，那么和他的关系就更可能是关键关系

更多的图片例子

RRM可以做到描述接近HET根源的实体之间的关系，这些也是人最关注的，所有从顶部关系生成的标题能更好的覆盖基本内容。
在这里插入图片描述

关切得大神

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。