Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读

摘要

场景图反应了人对图像内容的感知,“当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构。它把场景定义成
一系列图像区域组成的仿人层次示意图(Hierarchical Entity Tree),具体流程就是用混合LSTM(Hybrid
LSTM),并且为了确定场景图中关键关系的优先级,设计了一个关系排序模块( relation ranking module
RRM),通过铉锡从客观实体的显著性和大小中获取人类的主观感知习惯、

介绍

在这里插入图片描述

因为场景图在图像描述中的巨大作用,所以他很需要有的一个特征就是评估关系在一张图中的 重要性,并且有限考虑人类想要传达的事件关系。
现在存在的问题就是:
1.在主流数据集中 三重关系分布不均衡的现象
2.就如a b这两个图像为例,明明主要事件很不同,但是场景图基本相同,所以现在的方法在挖掘图像上的特定关系方面不够,而偏重琐碎和不言而喻的关系,这些不能传达图像的要点(为什么呢)
所以为此他们提出了一个 以人为主的分层结构模型

具体思路就是:把层次结构的思想引入到SGG任务中,并尝试优先检测关键关系,再检测琐碎关系以获得完整性

相关工作

研究了凝视数据“gaze data",表明人类能凝视到图像中的95%的物体,但是在人对图像的描述中,只有48%的物体被提及。
这里有两种描述 应该一种是 这个图里有什么的描述和 这个图在讲什么的描述

并且表明,描述中提到的对象(人类认为重要并且应构成重大事件/图像要点的对象)几乎在视觉上是显著的,并揭示了人注视的位置,但人所看到的(视觉上显著的对象)不总是他们想要传达的东西

方式

HET构建

目的就是构建一个层次结构。自上而下的层次与人类固定的感知层次相一致。他们的方法是讲较大的实体尽可能的靠近HET的根部。根部是0o,其他实体都是按照大小降序。

在这里插入图片描述
在这里插入图片描述

结构化上下文编码和场景图生成

全是公式。。。

关系排序模块

现在是已经得到一个 基于HET的层次化场景图。为此设计了一个RRM来对关键关系进行排序。这个模型是基于 视觉显著性和实体大小

DSS模型预测图像的像素显著性
在这里插入图片描述

训练和评估

有一个VG-KR的数据集
在这里插入图片描述
其中有个结论就是: 显著性和大小信息都有助于发现关键关系,并且显著性的效果要略好于大小信息。

结论:

提出了一种新的场景图建模方法,生成了一个仿人层次场景图,并对关键关系进行排序,提出了一个RRM模型用来判断哪些是关键关系

动机详解

描述中提到的对象(也就是人认为重要并应构成重大事件的对象)在视觉上几乎显著的,并揭示了人注视的地方。但人所看到的(视觉上显著的对象)并不一定是他们一开始想要传达的东西

视觉上突出的物体并总是构成图像中的主要事件,也不总是人类最初想要从图像中传达的东西

例子:

在这里插入图片描述
在这里插入图片描述

还有个创新点是 构造了一个新的数据集 VG-KR

VG数据集是稠密标注,而COCO描述图片的主要内容,并且两个数据集的图片存在较大的交集。所有他们把那些被COCO提及的视觉关系作为 key
relationship,从而构建一个新的数据集用于场景图生成

构建过程:

在这里插入图片描述

RRM模型:

关于筛选关键关系信息:

首先要知道
关键关系是从标题中提取出来的关系,而标题中的三元组关系一般都不多,毕竟标题只需要描述主要内容,不注重细节。而判断谓词是否属于关键关系,也是选那些语义丰富的动词。比如
抛出,剪,刷这种属于特定图像的。 像 in of这种携带的信息很少,就不太构成信息了

在这里插入图片描述
在这里插入图片描述

定义认知显著性:

在这里插入图片描述
在这里插入图片描述

得出的结论就是

一个包含视觉显著性和物体大小的指标可能有主语确定关键关系(为什么呢,是因为这个指标是属于 视觉显著性加物体大小的
他越大,对应的认知显著性就越大,那么和他的关系就更可能是关键关系

更多的图片例子

RRM可以做到描述接近HET根源的实体之间的关系,这些也是人最关注的,所有从顶部关系生成的标题能更好的覆盖基本内容。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值