AI视频解决方案汇总

本文作者为 360 奇舞团前端开发工程师

随着人工智能技术的不断发展,AI生成视频的领域也在不断壮大。从基于大规模数据的深度学习方法到创新的算法和工具,各种解决方案正在不断涌现,为视频制作带来了新的可能性,从最开始的PikaRunway到一经问世就惊艳众人的Sora,可以说大模型在多模态,特别是视频模态的发展速度远超我们的想象。不过就文生视频而言,目前市面上仍然没有像ChantGPT这样的现象级产品出现。经过对目前主流文生视频解决方案的调研,我整理了以下内容供大家参考。

基于Stable Diffusion的动画插件方案

Stable Diffusion(下文简称SD)是2022年发布的深度学习文本到图像生成模型,通过它可以实现文生图的功能,并且它是免费且开源的,你可以通过Stable Diffusion WebUI(下文简称SD WebUI)提供的浏览器界面来利用SD大模型实现文生图的功能。网上有很多在本地或是云端部署SD WebUI的方法,这里不多赘述,下面介绍的插件,都可以通过SD WebUI来进行安装,并配合SD大模型来实现文生视频的功能。

1. Animatediff + Prompt Travel + ControlNet + ADetailer
d392bdf6fb44ee26f1cd1d933c18d7fd.png
pic
1.1 插件介绍
  • AnimateDiffAnimateDiff插件是一个用于生成和操作图像的强大工具,它属于SD模型的一个扩展,它能够基于用户的描述生成新的图像,或者对现有图像进行修改和增强。这个插件的另一个主要特点是它能够创建动画。用户可以指定一个系列的图像变化,插件会生成一系列平滑过渡的图像,从而创建出动画效果。

  • Prompt TravelPrompt Travelling是一种技术,用于在创建最终的 GIF 或视频时,精确调整正面提示(positive prompt),以精确控制特定时间帧内的具体细节。当与 AnimateDiffSD 结合时,Prompt Travelling 允许更大程度地影响 GIF 和视频的视觉美学,包括风格、背景、服装选择等元素。在AnimateDiff中,如果使用这种方式来制作动画,那么我们的提示词(Prompt)就能使用 Prompt Travel 的撰写方式。他主要分为三个部分:开头提示词( Head Prompt )指定帧数提示词( Frames Prompt )结尾提示词(Tail Prompt )例如正常的提示词为:

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body

使用Prompt Travel 的撰写方式的提示词可以这样写:

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body
0: (red dress :1.2)
16: (white dress:1.2) 
32: (green dress:1.2)
smile

头部提示

masterpiece, 30 year old women, cleavage, red hair, bun, ponytail, medium breast, desert, cactus vibe, sensual pose, (looking in the camera:1.2), (front view:1.2), facing the camera,close up, upper body

头部或基本提示充当基础输入,用于确定生成的视频或 GIF 的整体外观

帧提示

0: (red dress :1.2)
16: (white dress:1.2) 
32: (green dress:1.2)

帧提示遵循“帧编号:帧prompt”模式,确保您的帧编号按顺序排列。这些提示显示在特定时间范围内将发生的修改。并且对每一个“帧prompt”都可以添加单独的权重规则.

尾部提示

smile

案例中的最后一行代表尾部提示,不是必须的。您可以灵活地包含单行或者多行提示,也可以不写。

  • ControlNeted4be68cfa3a63f453a48e4433246778.pngcontrolNet可以让AI生成更加可控的图片,它的核心能力就是能让我们通过设置各种条件来让AI更可控地生成最终图像。这些条件就是通过调节预处理器参数来实现的。它有各种预处理器比如:Canny 边缘检测 Depth 深度检测HED 边缘检测M-LSD 线条检测Normal Map 法线贴图以及最常用的OpenPose 姿态检测. 除了生成单人的姿势,它甚至可以生成多人的姿势,这点非常关键,在此之前AI生成的画面里多个人物的特定动作是几乎无法靠提示词来实现的。c4ebb2f10f7cf40833cb7b6751622bf3.pngControlNet的绘画模式是:先让用户输入一张参考图,然后程序根据此图按一定的模式预处理一张新图,之后再由AI根据这两幅图绘制出成品;当然,用户可以关闭程序的预处理功能,直接输入一张用户自己处理好的图片当作预处理图,之后AI仅根据这副图生成成品。

  • ADetailer5ff3d612b094182cac201cd4c66c048d.pngADetailer 也是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值