论文浅尝 | IRW：基于知识图谱和关系推理的视觉叙事框架-CSDN博客

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/120714565

IRW是一种创新的视觉叙事框架，通过想象-推理-编写过程生成连贯且富有想象力的故事。它利用多模态想象模块、关系推理模块（结合常识知识库和场景图、事件图）以及故事生成模块，提升故事的多样性和信息量。在VIST数据集上，IRW在多个评估指标上超越了现有的先进方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记整理：孙悦，天津大学

链接：https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf

动机

视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同，故事不仅包含事实描述，还包含未出现在图像中的想象概念。在本文中，我们提出了一种新颖的想象-推理-编写生成框架 (IRW)，用于视觉叙事，其灵感来自人类编写故事时的逻辑。首先，利用多模态想象模块明确学习富有想象力的故事情节，提高生成故事的连贯性和合理性。其次，我们采用关系推理模块，通过基于故事情节的关系推理方法充分利用外部知识（常识知识库）和任务特定知识（场景图和事件图）。通过这种方式，我们可以有效地捕捉图像中对象之间信息量最大的常识和视觉关系，增强生成故事的多样性和信息量。最后，我们整合视觉信息和语义（概念）信息来生成故事。在基准数据集（即 VIST）上进行的大量实验表明，所提出的 IRW 框架在多个评估指标上大大优于最先进的方法。