CVPR 2023: Make-a-Story Visual Memory Conditioned Consistent Story Generation

该研究介绍了一种基于扩散的模型,结合视觉记忆和注意力机制,用于多句故事的视觉一致性生成。模型处理文本引用解析,确保角色和场景在故事中的一致性,同时提升图像的视觉质量。在MUGEN和PororoSV数据集上进行了评估,展现出在故事讲述和动画、视频编辑等领域的应用潜力。
摘要由CSDN通过智能技术生成

我们采用以下 6 个分类标准来详细解释本文的研究主题:

1. 生成模型类型:

  • 基于扩散的:这种方法通过前向扩散过程迭代地将噪声细化为图像。这允许生成高质量的图像,并控制特定方面,如场景元素和照明。
  • 基于注意力的:注意力机制有助于模型在生成每个帧时集中在文本描述和视觉记忆的相关部分。这使得参考解析(识别代词所指的人或物)和跨帧保持一致性成为可能。
  • 内存增强的:视觉记忆模块存储前几帧中有关演员和背景的信息。这允许模型“记住”谁是谁以及他们在哪里,确保故事的连续性。

2. 条件输入:

  • 单句:传统的故事可视化模型通常将单句作为每个帧的输入。然而,这对于捕捉具有多个角色和事件的复杂叙事来说是有限的。
  • 多句:该模型可以处理以多句写成的故事情节,提供更丰富的上下文,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

结构化文摘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值