【Gaze】Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Abstract

当说话者描述一幅图像时,他们倾向于在提到物体之前先看它们。本文通过对图像描述生成过程的计算建模,研究了这种序列跨模态对齐。作者以一个SOTA的图像字幕系统作为出发点,利用人类注视信息设计不同模型变体。本文主要是提出了第一种生成图像描述的方法,其中视觉处理是按顺序建模的。经实验和分析证实,通过利用注视驱动的注意力,可以获得更好的描述,并通过比较将注视模式与语言产生对齐的不同方式,该方法在一定程度上来阐明人类的认知过程。作者发现,依次处理凝视数据会导致描述与说话者产生的描述更一致,更多样化、更自然——特别是当凝视被一个专门的循环成分编码时。

1. Introduction

描述一个图像需要不同模式的协调。认知研究表明,语言和视觉之间的相互作用是复杂的。一方面,眼球运动受到手头任务的影响,比如定位物体或口头描述图像。另一方面,视觉信息处理在指导语言生产中发挥着重要作用。这种跨模态协调在图像描述的特定任务中依次展开,也就是说,物体往往在被提及之前被观察。然而,这两种模式之间的时间对齐并不简单。

本文继续研究这些发现,并通过计算建模描述生成过程来研究图像描述中的跨模态对齐。本文采用SOTA自动图像字幕系统,并开发了几种利用来自眼球追踪数据的信息的模型变体。为了训练这些模型,我们使用了一个相对较小的DIDEC图像描述数据集,其中包括在语言生产过程中收集的注视模式信息。作者假设,一个将注视数据编码作为人类视觉注意的代理的系统将获得更好、更像人类的描述。特别是,用眼球运动与话语顺序一致来训练,将产生反映认知研究中观察到的复杂模式协调的描述。

在这里插入图片描述

本文开发了一个新的度量标准来衡量描述之间的语义和顺序对齐水平,并以两种方式使用它。首先,作者分析了DIDEC数据中的跨模态协调,发现内容和顺序性的产物比单独的内容更好地捕获跨模态相关性。其次,作者测试了模型是否生成了捕获序列对齐的caption。实验表明,利用注视驱动的注意力有助于提高图像标题生成,并处理凝视模式顺序导致描述更好的发言人,以及更多样的变化每图像和整体词汇,尤其是当凝视编码与一个专门的循环组件,可以更好地捕捉时间对齐的复杂性。

总的来说,这项工作提出了第一个图像描述生成的计算模型,其中视觉和语言处理都是按顺序建模的,并进一步支持了序列跨模态协调的认知理论。

2. Related Work

Image captioning:人们提出了各种模型来解决为视觉场景描述生成这一具有挑战性的任务。当代的方法利用了深度神经网络和编解码器架构。如使用卷积神经网络将输入图像编码为特征表示,然后由长短期记忆网络解码,作为生成语言模型。近年来,有许多建议来加强这一基本架构。如通过从CNN的下层提取特征获得一个图像的多个区域的表示,再将注意力应用通过LSTM解码器在这些区域上进行应用。“自底而上和自上而下的注意力Bottom-up and Top-down Attention”模型则基于Faster R-CNN提取多个图像特征,从而能够针对不同大小的区域更好地对齐图像中object。其他基于无监督方法和生成对抗网络的模型最近也被提出。

本文以Anderson等人的模型为起点,主要有两个原因:(1)它是image caption benchmarks上表现最好的架构之一;(2)其自下而上和自上而下的注意的基本思想明确地受到人类视觉注意机制的启发,因此它适合用于探究添加人类注视信息后的影响。

Eye tracking:在计算机视觉,人类眼球运动收集眼球追踪方法被利用模型突出的图像或视频对象检测,图像分类,图像分割,区域标签和行动检测。与本研究更相关的是,凝视也被用于自动描述生成任务,如视频帧字幕和图像字幕。在所有这些方法中,来自不同参与者的注视数据被聚合成一个静态显著性图,以表示显著性的抽象概念。这个聚合的注视数据被用作监督来训练预测一般视觉显著性的模型。

相比之下,本文通过直接输入关于说话者在描述过程中所看到的位置的信息来建模单个说话者的眼动信号生成过程,并将其与聚合方法进行比较。此外,作者利用注视模式的顺序性质,即扫视路径,并将其与静态显著性映射的使用进行对比。本研究是首次尝试研究序列注视信息的图像描述生成的具体任务。

3. Data

本文使用DIDEC语料库。DIDEC由4604个荷兰语描述(平均15个描述每张图像)组成。对于每个描述,都提供了音频、文本转录和相应的眼球跟踪数据。

3.1 Preprocessing

将原始caption进行缩写和小写,并排除标点符号和信息标记,例如,重复()。然后使用CMUSphinx1来获得给定一个音频文件及其转录的每个单词的时间间隔。DIDEC中的注视数据被分为注视事件,如注视、扫视或眨眼。本文只使用落在实际图像范围内的注视,并将这种注视的连续发生视为属于同一注视窗口。

3.2 Saliency maps

利用提取的注视窗口,本文创建了两种类型的显著性地图,聚合的和顺序的aggregated and sequential,它们表明了人类注视所显示的某些图像区域的突出性。

Aggregated saliency maps (per image)

图像的聚合显著性图是所有参与者注视的组合,并代表了给定图像描述任务的通常突出的东西。作者首先计算每个观看给定图像的参与者的显著性地图。对于参与者的每个固定窗口,创建了一个以窗口质心为中心的高斯掩码,视角的标准偏差为1°。给定DIDEC的数据收集设置,这个标准差对应于44个像素。用相对固定时间加权来汇总掩码,并将结果掩码归一化,使其值在[0,1]范围内。最后对所有相关参与者的地图进行汇总并归一化,得到每张图像的聚合显著性图。

Sequential saliency maps (per image-participant pair)

序列显著性映射由与描述中的单词对齐的显著性映射组成,表示给定参与者在描述生成过程中的扫视模式。使用从音频文件中提取出的时间间隔,将每个单词与参与者在单词说出前注视的图像区域对齐。对于每个单词 w t w_t wt——使用上面描述的相同方法——合并发生在 w t − 1 w_{t−1} wt1 w t w_t wt开始之间的所有固定窗口,并将它们归一化,以获得单词级显著性映射,以此得到每个参与者描述的显著性映射序列。

3.3 Masked images and image features

显著性地图用于只保持参与者高度关注的图像区域的可见性,并掩盖了从未或很少被关注的图像区域。作者通过计算相应的二维显著性映射与原始图像中的每个RGB通道之间的元素乘法来创建每个mask图像。然后使用在ImageNet上预先训练的ResNet-101从mask图像中提取图像特征。将2048-d平均池化层的输出作为图像特征和模型的输入。

4. Evaluation Measures

本文提出了一个新的度量方法来量化两个句子之间的语义和顺序对齐的程度。 (1)分析DIDEC数据中的跨模态协调,(2)评估本文生成模型。对于image caption,以下是几个现有的自动图像字幕生成的指标。

  1. CIDEr,它计算生成的标题和给定图像的整个参考句子集之间的重叠n-grams,通过tf-idf分数降低整个语料库中频繁出现的n-grams。因此,关于语义和顺序性,CIDEr分数可以受到词序排列的影响,但不受单词在整个标题中的相对位置的影响,也不受不同但语义相似的单词的影响。其他指标如BLEU和ROUGE-L存在类似的限制。
  2. METEOR和SPICE也使用n-grams,并通过使用WordNet匹配同义词来考虑语义相似性。这允许一些灵活性,但可能过于严格,无法掌握整体语义相似性。为了解决这个问题,WMD的提出建立在word2vec嵌入之上;最近,提出了一些利用上下文嵌入的指标,如BERTScore 和MoverScore。但这些指标忽略了句子的顺序对齐。

本文提出了语义和序列距离Semantic and Sequential Distance (SSD),一个度量语义相似性和单词的整体相对顺序的度量。SSD与基于排序的序列相似性Ordering-based Sequence Similarity (OSS)有关,该方法用来比较代表注视模式的类别序列的测量方法。给定两个单词序列,即一个生成的句子G和一个参考句子R,SSD提供了一个单一的正值,代表G和R之间的整体差异:该值越接近0,这两个句子之间的相似性就越高(注意,该值是无界的)。这个值是两项的平均值,gr 和 rg,它量化了G和R之间的总距离——它们的余弦(cos)和位置(pos)距离分别从G到R和从R到G的总和。gr的方程式如下:

g r = ∑ i = 1 N c o s ( G i , R s ( i ) ) + p o s ( G i

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值