短剧时代即将来临?AI 自动生成剧本和多场景长视频

本文介绍了一种名为VideoDrafter的方法,它利用大语言模型处理文本提示,生成逻辑连贯且内容一致的多场景视频。该模型通过三个步骤完成:多场景事件描述、实体参考图生成和视频生成。展示了多种视频生成实例,强调了在保持视觉一致性方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

近年来随着扩散模型(diffusion models)的进步和发展,给定文本提示进行高质量视频生成技术有着显著的提升。这些技术方案大多针对已有的二维图像扩散模型进行拓展,将图像二维神经网络修正为视频三维神经网络,并基于扩散概率模型进行视频帧序列的去噪,完成视频生成。然而,这些现有方法依然围绕着单个场景的视频生成,对于多场景视频生成并未考虑,并且生成的视频长度也仅为2秒到4秒。

基于这样的问题,来自HiDream.ai公司的算法研究人员提出利用大语言模型针对输入的文本提示进行多场景事件描述的拓展,保证不同事件之间的逻辑性和场景中前景背景描述的一致性。其后,针对大语言模型提供的每一个事件所对应的前景背景描述,以及动作描述,利用视频扩散模型生成具有内容一致的视频片段,从而构建一个多场景的长视频

title.png

项目主页: VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM 

视频链接:https://www.youtube.com/watch?v=_aIrobrzu2g

01. 研究背景:多场景视频生成任务及难点

当下基于扩散模型的视频生成主要针对单个场景下的动作事件,而对多场景的视频生成鲜有涉及。给定一个文本提示,并且生成具有良好逻辑性的多场景视频,是本工作研究的重点。相应的技术难点主要体现在以下两个方面:

  1. 如何保证不同事件之间具有良好的逻辑性(例如,给定文本提示为一个男孩踢球射门,在时序上男孩应该先进行运球,然后射门)
  2. 如何保证生成视频主体的视觉外貌特征一致(例如,以男孩踢球射门为例,不同场景下男孩的外貌穿着应该保持一致)

02. 以大语言模型为基础的内容一致多场景视频生成模型:VideoDrafter

framework.png

针对上述的两个技术难点,本工作提出了一个以大语言模型为基础的内容一致多场景视频生成方案VideoDrafter。该方案通过主要的三个步骤完成多场景视频生成。

第一步是首先通过大语言模型对输入的文本提示进行多场景事件描述拓写,将输入的单句文本转换为多场景的视频描述(Multi-scene video script generation),并且输出每个事件对应的前景和背景实体描述(Entity description)。

第二步是将每个事件对应的前景和背景实体描述利用文本到图像的扩散模型生成对应的前景和背景实体参考图(Entity reference image generation)。

最后一步是针对每个事件对应前景和背景实体参考图,以及事件的动作描述,利用视频扩散模型完成对该事件的视频生成。这里的最后一步本方案拆解为主要的两个步骤,即首先通过VideoDrafter-Img模型,利用前景和背景实体参考图以及事件动作描述,生成对应的场景事件参考图片(Scene reference image);然后通过VideoDrafter-Vid模型,再将动作赋予给场景事件参考图片,生成对应场景的视频。

本方案利用大语言模型保证了生成的不同事件描述的逻辑性,同时利用前景和背景实体参考图指导不同场景下视频内容的生成,因此可以良好地保证不同场景中的内容实体的视觉外貌特征的一致性

03. 视频生成结果

首先用户可以通过输入一个文本提示(input prompt),生成具有良好逻辑性的,内容一致的多场景视频,以下是对应的文本提示和多场景视频生成结果:

生成视频1:

pipe1.png

生成视频2:

pipe2.png

生成视频3:

pipe3.png

动态视频例子:

mancook.gif
输入文本提示: A person with red clothes is preparing dessert in the kitchen
drive.gif
输入文本提示: A man and a woman drive a car from hills to city

其次,对于用户提供的真实图像作为前景和背景实体参考图,以及对应的事件文本提示,本方案同样可以生成内容一致的多场景视频,生成的视频结果如下:

real.png

动态视频例子:

ref1.png
前景和背景实体参考图
cat.gif
视频生成结果

(对应文本提示:The cat lies in the room → The cat lies in the driving car → The cat plays in the flowers)

ref3.png
前景和背景实体参考图

rider.gif
视频生成结果

(对应文本提示:The motorcyclist stays in the town → The motorcyclist is riding on the road under the sunset → The motorcyclist is riding on the moon)

对该方案的完整性能评测,以及更多的视频生成例子,请参考论文和对应的项目主页。

04. 总结

  1. 本方案提出了VideoDrafter模型,一种以大语言模型为基础的内容一致多场景视频生成技术。
  2. 利用大语言模型对文本信息的强理解性,对输入的单个文本提示进行多场景视频事件的拓写,保证不同视频事件的逻辑相关性。
  3. 在对应不同事件的不同场景视频生成的过程中,利用前景和背景实体参考图指导视频的生成,保证了不同场景中视频内容主体在视觉外貌特征上的一致性。
  4. 本方案提及的多场景视频生成方案,对大语言模型的利用和保持视频内容一致性的尝试,希望对后续具有因果关系的视频生成具有一定的启发作用。

更多的技术细节,敬请参考论文原文。


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

<think>好的,用户想了解如何设计一个用于短剧剧本创作的AI系统,我需要结合他们提供的参考资料来回答。首先,看看他们给的引用内容。引用[1]提到剧本创作系统包括剧本编辑软件、创意策划工具故事板软件,还有AI辅助创作系统如Kompas AIFilmFlow,这些能提高效率内容质量。还有评估助手编剧助手工具,这可能涉及到自然语言处理生成技术。 引用[3]提到“一人一剧”的理念,强调个性化自由度,所以系统可能需要支持定制化创作。引用[4]提到阿里云的解决方案,包括内容制作、媒体处理、安全分发等,这可能涉及全流程的架构设计,比如使用B/S架构Spring框架。 接下来,我需要把系统设计分成几个模块。首先,数据层需要收集处理剧本数据,可能包括结构化非结构化的数据,比如已有的剧本、用户画像、市场数据等。然后是算法层,可能需要自然语言处理模型,比如GPT-3或者BERT,用于生成剧本内容。还要有评估模块,使用机器学习来评估剧本质量。 应用层的话,可能需要剧本编辑器、创意工具、故事板生成等,这部分需要用户友好的界面。另外,用户画像市场分析模块也很重要,帮助创作者定位受众。 技术架构方面,可能需要微服务架构,前后端分离,前端用Vue或React,后端用Spring Cloud。AI模型的部署可能需要GPU加速,使用Docker容器化。数据存储用MongoDB或者MySQL,加上Redis缓存。 还要考虑流程,比如用户输入需求,AI生成初稿,用户修改,评估反馈,优化迭代。同时需要优化生成内容的相关性样性,可能用强化学习来调整模型。 可能还需要引用提到的Kompas AIFilmFlow作为例子,说明如何提高效率。最后,生成相关问题,比如数据收集方法、NLP模型选择、用户画像构建、评估指标、部署优化等。 要确保回答结构清晰,分步骤说明,符合用户要求的中文回答,并且正确引用资料,比如引用[1]、[3]、[4]的相关部分。同时,检查LaTeX格式是否正确,行内公式用$...$,独立公式用$$...$$,但用户的问题中没有数学公式,可能不需要太,但如果有提到模型结构或算法,可能需要适当加入。不过根据问题,可能主要集中在系统架构流程上,暂时不需要数学公式,但要注意如果有的话要正确格式化。</think>### 设计AI短剧剧本创作系统的方法与架构 #### 1. **系统核心模块设计** - **数据层** - **剧本数据库**:收集结构化剧本数据(如场景、角色、台词)非结构化数据(如市场趋势、用户评论),使用NoSQL数据库(如MongoDB)存储动态格式内容[^1][^2]。 - **知识图谱**:构建影视领域知识库,包括角色关系、情节模板、情感标签等,支持AI生成逻辑合理性校验[^1]。 - **算法层** - **自然语言生成(NLG)**:基于预训练模型(如GPT-4或专有模型),结合短剧场景优化生成内容。例如: ```python # 伪代码:基于上下文的台词生成 def generate_dialogue(context, emotion_tag): prompt = f"基于场景『{context}』情感标签『{emotion_tag}』生成台词" return ai_model.generate(prompt) ``` - **评估模块**:通过机器学习模型(如LSTM+注意力机制)分析剧本的连贯性、冲突强度商业价值,提供优化建议[^3]。 - **应用层** - **交互式创作界面**:集成剧本编辑器(支持分镜标记)、故事板生成工具(自动将文本转为视觉草图)、实时协作功能[^4]。 - **用户画像系统**:通过分析观众行为数据(如观看时长、互动热点),动态调整生成剧本的风格偏好[^3]。 #### 2. **技术架构实现** - **服务架构** 采用微服务+B/S架构,核心组件包括: $$ \text{系统} = \text{前端(Vue.js)} + \text{API网关(Spring Cloud)} + \text{AI服务(Python/GPU集群)} + \text{数据湖(Hadoop)} $$ 参考阿里云方案实现媒体处理流水线(如自动字幕生成、语言翻译)。 - **AI模型部署** - 使用Docker容器化部署生成模型与评估模型 - 通过TF-Serving或TorchServe提供低延迟API - 引入缓存机制(Redis)存储常用情节模板 #### 3. **关键流程设计** 1. **需求输入**:用户选择类型(如甜宠/悬疑)、时长(1-5分钟)、核心冲突 2. **初稿生成**:AI调用知识图谱生成3版备选剧本大纲 3. **人机协同**:创作者通过拖拽修改故事节点,系统实时生成新分支 4. **质量评估**:自动检测台词口语化程度、场景转换合理性 5. **版本迭代**:记录用户修改行为,反馈至模型强化学习循环 #### 4. **优化方向** - **相关性控制**:通过Prompt Engineering约束生成范围,例如: `"生成校园甜宠短剧开场:女主迟到撞到霸总学长,需包含特写镜头描述"` - **样性增强**:在输出层添加Top-p采样($p=0.9$)温度系数($\tau=0.7$) - **模态扩展**:结合Stable Diffusion生成分镜草图,同步输出配乐建议[^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值