运用生成式AI，亚马逊云科技针对泛娱乐行业的风格化视频生成实践

本文探讨了生成式AI在文生图和风格化视频领域的应用，特别是在泛娱乐行业中，如短视频制作。文章介绍了扩散模型在视频生成中的挑战和利用模板视频、插件进行风格化的方法，以及如何通过3D模型和现实视频基础创建有主题的创意视频。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从2022年以来生成式AI发展迅猛，特别是在文生图领域，在扩散模型为主，其他模型的加持下，新的文生图，图生图技术层出不穷。在媒体与娱乐领域已经被广泛应用，主要的场景有：1.分镜头剧本插图；2.漫画创作；3.概念图生成。并随着技术的进步，形成比较完善的工具链。

尽管扩散模型和其应用在生成图片方面的能力出众，但是视频生成领域发展依然是滞后的。其原因主要有：没有高质量的训练集；没有很好描述视频的方式；生成式视频模型的训练需要极高的算力。所以现在主流的利用扩散模型生成视频的方式是：利用模版视频，拆解为视频帧图片，利用各种插件逐帧按照提示词和图片特征进行风格化，最后组合成风格化视频。

基于生成式AI行业解决方案指南，针对泛娱乐行业的风格化视频生成，介绍生成式AI的使用，配合传统工具，以协助内容创作，达到一定的创意效果。

生成式AI在泛娱乐行业中视频创作

在泛娱乐行业，短视频是最流行的一种内容表达形式，其特点是制作成本较低，传播率高。传统的生成短视频的方式既有UGC模式，也有PGC模式，虽然他们的制作周期和制作成本远低于传统媒体，但是还是脱离不了“策划-剧本-台词-选角-排练-正式演出-录制-校验-剪辑-后期-审核-发布”这些基本的步骤。综合来说，一个5分钟左右的短视频制作平均时长大概2-3天左右。生成式AI的出现可以大大提高制作效率，缩短制作周期，甚至可以简化制作步骤。现在有生成风格化图片和生成风格化视频的生成方式，根据一些现有的图片和视频，或者初期拍摄的视频直接进入后期步骤。进行风格化是现在短视频生成的一种尝试，虽然现在这类视频依然有闪烁跳跃等问题，通过社区的不断进步，效果正越来越好。当然这类视频本身因为自由度较高，创意属性强，本身就具有较强的话题性和传播度。

主流的风格化视频的生产的方法是利用连续风格化图片作为序列帧串联起来的视频。包括：1）通过原视频提取每一帧，逐帧通过提示词进行图生图，最后将图片重新组装起来生成风格化视频；2）生成数张创意图片，作为关键帧，相似图片作为过渡帧，组装成风格化视频。这两种风格化视频，都可以通过Stable Diffusion WebUI的插件来实现。但是这两种风格化视频生产方式依然具有一定需要解决的问题，各自分别是：1）模版视频拍摄依然需要一定投入，包括编排，表演，以及原始视频的版权问题等；2）风格化视频的主题难以定义。

以下两种风格化视频的组合生成方式，可以充分利用目前风格化视频的插件，又可以部分解决风格化视频生产的上述问题：

1. 利用3D模型的动态画面作为蓝本，生成风格化视频的方法

2. 利用短暂的普通视频作为起点（或者中间节点）生成具有一定主题的风格化视频的方法

架构与工作原理

以生成式AI行业解决方案指南为基础，其工作原理如下图：

生成式AI行业解决方案指南，将前端Stable Diffusion WebUI部署在容器服务Amazon ECS上，后端使用无服务器服务Amazon Lambda进行处理，前后端通过Amazon API Gateway调用进行通信。模型训练及部署均通过Amazon SageMaker进行。同时使用Amazon S3、Amazon EFS、Amazon DynamoDB分别进行模型数据、临时文件、使用数据的存储。

3D模型为蓝本生产风格化视频

由原视频转换为风格化视频的基本原理，如下图所示：

参考步骤为：

1. 原始视频拆解为视频帧序列

2. 针对每一帧通过Stable Diffusion进行风格化，并用ControlNet对人物轮廓和姿态进行控制

3. 将生成的新的序列帧重新组合成为视频

具有主题的风格化视频

Stable Diffusion社区具有丰富的风格化视频生成插件，其中Deforum是热度最高的插件之一，其原理是确定时间轴上的关键帧使用明确Prompt生成的创意图片，关键帧之间的过渡视频帧采用渐进的方式，并配合一定的2D，3D空间旋转，产生独特的效果，这种方式的提示词一般都是剧本的形式，原理如图所示：

从风格化视频或者创意视频的角度，通过一定剧本转换为prompt，再经过Deforum的串联，能达到表达一定主题的创意视频的效果，从制作角度这里还是有两个难点：1. 凭空写剧本很难将现实主题和创意视频进行关联；2. 创意视频/风格化视频效果本身还是由创意图片连接而成，很难把控其效果，并且视频生成消耗算力远大于图片生成，造成废片会导致算力浪费。所以这里不妨在用简单的现实视频与创意视频交叉呼应的方式进行创作，这里的现实视频可能只需2-3秒的手机拍摄视频，并作为起始视频即可。这里采用一个例子：笔者参观某省级博物馆叙利亚文物展，突发感慨，想制作一个几十秒的风格化短视频，表达自己观看文物时感受的千年时代变迁，可以采用具体步骤如下：

1. 拍摄一段3-5分钟的自拍视频，表示初始主题，作为初始视频。由于目标是创意视频要发在社交媒体上，需要适配手机的尺寸，所以视频分辨率为540*960

2. 准备Web UI的基本环境，包括模型和插件

3. 设置初始视频的某帧为初始帧，我们这里截取最后一帧为初始帧，图像分辨率为540*960，并在Deforum里设置初始帧，在init tab里选择Use init，并填入文件地址

设置提示词，并设置旋转参数。这里有参数列表和推荐值如下表

5. 编排适当的风格化提示词，并生成视频，这里提示词必须按照JSON格式，在这个规则的基础上，编排视频的情节

6. 通过剪辑软件将现实视频与创意视频首尾呼应进行连接，得到完整视频。

小结

以上，大致介绍了泛娱乐行业的视频内容制作场景中，通过不同插件和工具的配合，可以达到生成风格化视频和创意视频的目标。当然这只是冰山一角，在泛娱乐行业应用中，通过不断跟踪新的插件和模型，可以根据技术上的迭代达到泛娱乐内容的不断创新，同时和一些标准的媒体制作工具相结合，通过步骤的不断优化，达到可以高效生产创意内容的目的。

原标题：生成式AI在泛娱乐行业的应用场景实践——助力风格化视频内容创作

原链接：https://aws.amazon.com/cn/blogs/china/generative-ai-in-entertainment-industry-facilitating-the-creation-of-stylized-video-content/