本文作者为 360 奇舞团前端开发工程师
随着人工智能技术的不断发展,AI生成视频的领域也在不断壮大。从基于大规模数据的深度学习方法到创新的算法和工具,各种解决方案正在不断涌现,为视频制作带来了新的可能性,从最开始的Pika
、Runway
到一经问世就惊艳众人的Sora
,可以说大模型在多模态,特别是视频模态的发展速度远超我们的想象。不过就文生视频而言,目前市面上仍然没有像ChantGPT
这样的现象级产品出现。经过对目前主流文生视频解决方案的调研,我整理了以下内容供大家参考。
基于Stable Diffusion
的动画插件方案
Stable Diffusion
(下文简称SD
)是2022年发布的深度学习文本到图像生成模型,通过它可以实现文生图的功能,并且它是免费且开源的,你可以通过Stable Diffusion WebUI
(下文简称SD WebUI
)提供的浏览器界面来利用SD
大模型实现文生图的功能。网上有很多在本地或是云端部署SD WebUI
的方法,这里不多赘述,下面介绍的插件,都可以通过SD WebUI
来进行安装,并配合SD
大模型来实现文生视频的功能。
1. Animatediff + Prompt Travel + ControlNet + ADetailer

1.1 插件介绍
AnimateDiff
AnimateDiff
插件是一个用于生成和操作图像的强大工具,它属于SD
模型的一个扩展,它能够基于用户的描述生成新的图像,或者对现有图像进行修改和增强。这个插件的另一个主要特点是它能够创建动画。用户可以指定一个系列的图像变化,插件会生成一系列平滑过渡的图像,从而创建出动画效果。Prompt Travel
Prompt Travelling
是一种技术,用于在创建最终的GIF
或视频时,精确调整正面提示(positive prompt)
,以精确控制特定时间帧内的具体细节。当与AnimateDiff
和SD
结合时,Prompt Travelling
允许更大程度地影响GIF
和视频的视觉美学,包括风格、背景、服装选择等元素。在AnimateDiff
中,如果使用这种方式来制作动画,那么我们的提示词(Prompt)
就能使用Prompt Travel
的撰写方式。他主要分为三个部分:开头提示词( Head Prompt )
指定帧数提示词( Frames Prompt )
结尾提示词(Tail Prompt )
例如正常的提示词为:
masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body
使用Prompt Travel
的撰写方式的提示词可以这样写:
masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body
0: (red dress :1.2)
16: (white dress:1.2)
32: (green dress:1.2)
smile
头部提示
masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body
头部或基本提示充当基础输入,用于确定生成的视频或 GIF 的整体外观
帧提示
0: (red dress :1.2)
16: (white dress:1.2)
32: (green dress:1.2)
帧提示遵循“帧编号:帧prompt”模式,确保您的帧编号按顺序排列。这些提示显示在特定时间范围内将发生的修改。并且对每一个“帧prompt”都可以添加单独的权重规则.
尾部提示
smile
案例中的最后一行代表尾部提示,不是必须的。您可以灵活地包含单行或者多行提示,也可以不写。
ControlNet
controlNet
可以让AI生成更加可控的图片,它的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像。这些条件就是通过调节预处理器参数来实现的。它有各种预处理器比如:Canny 边缘检测
、Depth 深度检测
、HED 边缘检测
、M-LSD 线条检测
、Normal Map 法线贴图
以及最常用的OpenPose 姿态检测
. 除了生成单人的姿势,它甚至可以生成多人的姿势,这点非常关键,在此之前AI生成的画面里多个人物的特定动作是几乎无法靠提示词来实现的。ControlNet
的绘画模式是:先让用户输入一张参考图,然后程序根据此图按一定的模式预处理一张新图,之后再由AI根据这两幅图绘制出成品;当然,用户可以关闭程序的预处理功能,直接输入一张用户自己处理好的图片当作预处理图,之后AI仅根据这副图生成成品。ADetailer
ADetailer
也是