目录
最近看了一篇文章,文章题目是:《Customized Image Narrative Generation via Interactive Visual Question Generation and Answering》,即《基于交互式视觉问答的个性化图像叙事生成》,是CVPR2019年的文章。看到网上暂时没有相关讲解,这边发表一些个人拙见,欢迎批评。
另一篇关于VQG博客:
https://blog.csdn.net/gxc19971128/article/details/104462166
1.Abstract
如该论文的题目所说,所谓Customized(个性化的,客户定制的),这篇文章与之前的文章理念有所不同。之前所谓论文模型中,无论描述的范围或目标如何,图像描述任务总是以静态的方式进行检查,定性的假设被认为是普遍适用的。然而,在实践中,不同的观众可能会注意到图像的不同方面,并在不同的上下文中产生不同的描述或解释。传统的图像描述技术很难获得这种视角上的多样性。在该文中,提出了一个定制的图像叙事生成任务,用户通过提供问题的答案互动地参与生成过程。我们进一步尝试通过重复这样的交互阶段来学习用户的兴趣,并自动反映对新图像描述的兴趣。实验结果表明,与传统模型相比,该文中的模型可以从单个图像中生成各种各样的描述,覆盖范围更广,同时可以对交互的目标用户进行定制。
2.Introduction
视觉语言领域的最新进展使脑电学习技术在各种任务中成功地弥合了视觉和语言之间的鸿沟。在现实世界中,由于不同的观看者可能在不同的语境中注意到图像的不同方面,因此图像描述容易产生无限大的变化范围,从而产生各种各样的描述或解释。由于其主观特性,传统的图像描述技术很难获得这种多样性。在本文中,我们提出了一个定制的图像叙事生成任务,其中我们试图积极参与用户在描述生成过程中通过提问和直接获取自己的答案,从而学习和反映自己对描述的兴趣。我们使用图像叙事这个术语来区分我们的图像描述和传统的图像描述,在传统的图像描述中,目标被固定为描述全局元素的事实方面。相比之下,我们模型中的图像叙事涵盖了更广泛的主题,包括主观、局部或推理元素。
图一:常规图像描述(顶部)和自定义图像叙事(比较偏爱西瓜这个东西,只关注西瓜)(底部)的示例。
通过大量的实验,我们证明这种交互不仅使我们能够通过在当前感兴趣的图像中反映用户的选择来定制图像描述,而且还能够自动将学习到的偏好应用于新图像。
3.Related work
3.1 Visual Language(视觉语言)
当今方法中,将卷积神经网络(CNN)提取图像特征和长短时记忆(LSTM)生成问题特征的这一流程统一为图像问答任务的标准。视觉问答(VQA)将语言和视觉的交互提升到了一个新的阶段,它使机器能够回答关于图像的各种问题,而不仅仅是描述图像的某些方面。已经提出了许多不同的方法来处理VQA任务,不过目前的分类方法已经被证明优于生成方法,即把VQA看做是一个分类问题。
3.2User Interaction(用户交互)
将与用户的交互集成到系统中已迅速成为一个研究热点。可视化对话积极地涉及用户交互,这反过来影响系统生成的响应。但是,它的核心机制与我们的模型相反,因为用户会问关于图像的问题,而系统会回答这些问题。因此,重点是将VQA系统扩展到更依赖上下文和交互的方向。另一方面,我们的模型的重点是生成定制的图像描述,并且使用用户交互来学习用户的兴趣,而可视化对话并不关心用户本身。我们的模型不仅利用了用户对当前图像的回答,而且进一步尝试将其应用于新图像。最近在强化学习(RL)方面的工作也采用了交互环境,允许非专家的人来教授代理。然而,它的主要目的是协助RL代理的培训,而我们的目标是具体了解用户的兴趣。