论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

IRW是一种创新的视觉叙事框架,通过想象-推理-编写过程生成连贯且富有想象力的故事。它利用多模态想象模块、关系推理模块(结合常识知识库和场景图、事件图)以及故事生成模块,提升故事的多样性和信息量。在VIST数据集上,IRW在多个评估指标上超越了现有的先进方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

b8f298291681cccbe5b412011685c106.png

笔记整理:孙悦,天津大学 

链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf

动机

视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。在本文中,我们提出了一种新颖的想象-推理-编写生成框架 (IRW),用于视觉叙事,其灵感来自人类编写故事时的逻辑。首先,利用多模态想象模块明确学习富有想象力的故事情节,提高生成故事的连贯性和合理性。其次,我们采用关系推理模块,通过基于故事情节的关系推理方法充分利用外部知识(常识知识库)和任务特定知识(场景图和事件图)。通过这种方式,我们可以有效地捕捉图像中对象之间信息量最大的常识和视觉关系,增强生成故事的多样性和信息量。最后,我们整合视觉信息和语义(概念)信息来生成故事。在基准数据集(即 VIST)上进行的大量实验表明,所提出的 IRW 框架在多个评估指标上大大优于最先进的方法。

亮点

IRW的亮点主要包括:

1.为视觉叙事提出了一种新颖的想象-推理-编写生成框架2.提出了一种检索增强的方法来从训练语料库构建事件图。事件图从相似图像的故事中学习高级事件,可以为故事生成提供辅助知识。3.在基准数据集上的实验表明,在多个评估指标中,IRW 的性能明显优于比较方法

概念及模型

IRW内部有两个主要模块:encoder和decoder。Encoder采用CNN和Bi-GRU模型来编码图像特征以及学习图像流的上下文信息。Decoder由三部分组成,分别是想象模块、推理模块以及写作模块,最后输出一个连贯的、信息丰富的并且具有想象力的故事。

decoder具体由三部分构成:

•Multimodal Imagining Module:生成一个富有想象力的故事情节•Relational reasoning module:充分利用外部常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值