笔记整理:孙悦,天津大学
链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf
动机
视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。在本文中,我们提出了一种新颖的想象-推理-编写生成框架 (IRW),用于视觉叙事,其灵感来自人类编写故事时的逻辑。首先,利用多模态想象模块明确学习富有想象力的故事情节,提高生成故事的连贯性和合理性。其次,我们采用关系推理模块,通过基于故事情节的关系推理方法充分利用外部知识(常识知识库)和任务特定知识(场景图和事件图)。通过这种方式,我们可以有效地捕捉图像中对象之间信息量最大的常识和视觉关系,增强生成故事的多样性和信息量。最后,我们整合视觉信息和语义(概念)信息来生成故事。在基准数据集(即 VIST)上进行的大量实验表明,所提出的 IRW 框架在多个评估指标上大大优于最先进的方法。
亮点
IRW的亮点主要包括:
1.为视觉叙事提出了一种新颖的想象-推理-编写生成框架2.提出了一种检索增强的方法来从训练语料库构建事件图。事件图从相似图像的故事中学习高级事件,可以为故事生成提供辅助知识。3.在基准数据集上的实验表明,在多个评估指标中,IRW 的性能明显优于比较方法
概念及模型
IRW内部有两个主要模块:encoder和decoder。Encoder采用CNN和Bi-GRU模型来编码图像特征以及学习图像流的上下文信息。Decoder由三部分组成,分别是想象模块、推理模块以及写作模块,最后输出一个连贯的、信息丰富的并且具有想象力的故事。
decoder具体由三部分构成:
•Multimodal Imagining Module:生成一个富有想象力的故事情节•Relational reasoning module:充分利用外部常