AI视频解决方案汇总

最新推荐文章于 2025-01-17 09:58:16 发布

奇舞周刊

最新推荐文章于 2025-01-17 09:58:16 发布

阅读量692

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/qiwoo_weekly/article/details/140995959

版权

本文作者为 360 奇舞团前端开发工程师

随着人工智能技术的不断发展，AI生成视频的领域也在不断壮大。从基于大规模数据的深度学习方法到创新的算法和工具，各种解决方案正在不断涌现，为视频制作带来了新的可能性，从最开始的Pika、Runway到一经问世就惊艳众人的Sora，可以说大模型在多模态，特别是视频模态的发展速度远超我们的想象。不过就文生视频而言，目前市面上仍然没有像ChantGPT这样的现象级产品出现。经过对目前主流文生视频解决方案的调研，我整理了以下内容供大家参考。

基于`Stable Diffusion`的动画插件方案

Stable Diffusion(下文简称SD)是2022年发布的深度学习文本到图像生成模型，通过它可以实现文生图的功能，并且它是免费且开源的，你可以通过Stable Diffusion WebUI(下文简称SD WebUI)提供的浏览器界面来利用SD大模型实现文生图的功能。网上有很多在本地或是云端部署SD WebUI的方法，这里不多赘述，下面介绍的插件，都可以通过SD WebUI来进行安装，并配合SD大模型来实现文生视频的功能。

1. Animatediff + Prompt Travel + ControlNet + ADetailer

pic

1.1 插件介绍

AnimateDiffAnimateDiff插件是一个用于生成和操作图像的强大工具，它属于SD模型的一个扩展,它能够基于用户的描述生成新的图像，或者对现有图像进行修改和增强。这个插件的另一个主要特点是它能够创建动画。用户可以指定一个系列的图像变化，插件会生成一系列平滑过渡的图像，从而创建出动画效果。
Prompt TravelPrompt Travelling是一种技术，用于在创建最终的 GIF 或视频时，精确调整正面提示（positive prompt），以精确控制特定时间帧内的具体细节。当与 AnimateDiff 和 SD 结合时，Prompt Travelling 允许更大程度地影响 GIF 和视频的视觉美学，包括风格、背景、服装选择等元素。在AnimateDiff中，如果使用这种方式来制作动画，那么我们的提示词（Prompt）就能使用 Prompt Travel 的撰写方式。他主要分为三个部分：开头提示词（ Head Prompt ）指定帧数提示词（ Frames Prompt ）结尾提示词（Tail Prompt ）例如正常的提示词为：

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body

使用Prompt Travel 的撰写方式的提示词可以这样写：

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body
0: (red dress :1.2)
16: (white dress:1.2) 
32: (green dress:1.2)
smile

头部提示

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body

头部或基本提示充当基础输入，用于确定生成的视频或 GIF 的整体外观

帧提示

0: (red dress :1.2)
16: (white dress:1.2) 
32: (green dress:1.2)

帧提示遵循“帧编号:帧prompt”模式，确保您的帧编号按顺序排列。这些提示显示在特定时间范围内将发生的修改。并且对每一个“帧prompt”都可以添加单独的权重规则.

尾部提示

smile

案例中的最后一行代表尾部提示，不是必须的。您可以灵活地包含单行或者多行提示，也可以不写。

ControlNetcontrolNet可以让AI生成更加可控的图片，它的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像。这些条件就是通过调节预处理器参数来实现的。它有各种预处理器比如：Canny 边缘检测、 Depth 深度检测、HED 边缘检测、M-LSD 线条检测、Normal Map 法线贴图以及最常用的OpenPose 姿态检测. 除了生成单人的姿势，它甚至可以生成多人的姿势，这点非常关键，在此之前AI生成的画面里多个人物的特定动作是几乎无法靠提示词来实现的。ControlNet的绘画模式是：先让用户输入一张参考图，然后程序根据此图按一定的模式预处理一张新图，之后再由AI根据这两幅图绘制出成品；当然，用户可以关闭程序的预处理功能，直接输入一张用户自己处理好的图片当作预处理图，之后AI仅根据这副图生成成品。
ADetailerADetailer 也是