CogVideo - 文生视频、图生视频

最新推荐文章于 2025-03-26 15:39:06 发布

编程乐园

最新推荐文章于 2025-03-26 15:39:06 发布

阅读量2.9k

点赞数 30

分类专栏： # AI 开源项目文章标签：音视频 CogVideo 文生视频图生视频 THUDM 大模型

本文链接：https://blog.csdn.net/lovechris00/article/details/142308710

版权

AI 开源项目专栏收录该内容

148 篇文章

订阅专栏

在这里插入图片描述

文章目录

一、关于 CogVideo

CogVideoX是智谱开放平台中最新上线的视频模型，现已支持文生视频、图生视频多个能力，让用户可以在开放平台使用和调用视频模型能力，轻松高效地完成艺术视频创作。体验中心支持多种生成方式，包括文本生成视频、图片生成视频，可应用于广告制作、电影剪辑、短视频制作等领域。

CogVideoX-5B 是中质量较高视频生成模型，提升了视频生成的质量与视觉效果，适合对生成效果有更高要求的用户。相较于入门级的 CogVideoX-2B，该模型具有更大的规模，支持更高精度的推理和优化，能够在保持高生成质量的同时减少资源消耗。

github : https://github.com/THUDM/CogVideo
paper : CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

https://arxiv.org/abs/2408.06072
官方文档：https://zhipu-ai.feishu.cn/wiki/DHCjw1TrJiTyeukfc9RceoSRnCh
视频作品 : https://github.com/THUDM/CogVideo/blob/main/README_zh.md#视频作品

对应提示词 : https://github.com/THUDM/CogVideo/blob/main/resources/galary_prompt.md
👋 联系：微信 | Discord

体验

在 🤗 Huggingface Space 或 🤖 ModelScope Space 在线体验 CogVideoX-5B 模型
CogVideo的demo网站在https://models.aminer.cn/cogvideo。您可以在这里体验文本到视频生成。 原始输入为中文。
📍 前往清影和 API平台体验更大规模的商业版视频生成模型。

二、快速开始

1、提示词优化

在开始运行模型之前，请参考这里查看我们是怎么使用GLM-4(或者同级别的其他产品，例如GPT-4) 大模型对模型进行优化的，这很重要，由于模型是在长提示词下训练的，一个好的提示词直接影响了视频生成的质量。

2、SAT

查看sat文件夹下的 sat_demo：包含了 SAT 权重的推理代码和微调代码，推荐基于此代码进行 CogVideoX 模型结构的改进，研究者使用该代码可以更好的进行快速的迭代和开发。

3、Diffusers

pip install -r requirements.txt

查看diffusers_demo：包含对推理代码更详细的解释，包括各种关键的参数。

三、模型介绍

CogVideoX是清影同源的开源版本视频生成模型。下表展示我们提供的视频生成模型相关基础信息:

模型名	CogVideoX-2B	CogVideoX-5B
模型介绍	入门级模型，兼顾兼容性。运行，二次开发成本低。	视频生成质量更高，视觉效果更好的更大尺寸模型。
推理精度	*FP16(推荐)*, BF16, FP32，FP8，INT8，不支持INT4	BF16(推荐), FP16, FP32，FP8*，INT8，不支持INT4
单GPU显存消耗	SAT FP16: 18GB diffusers FP16: 4GB起* diffusers INT8(torchao): 3.6G起*	SAT BF16: 26GB diffusers BF16 : 5GB起* diffusers INT8(torchao): 4.4G起*
多GPU推理显存消耗	*FP16: 10GB using diffusers**	*BF16: 15GB using diffusers**
推理速度 (Step = 50)	FP16: ~90* s	BF16: ~180* s
微调精度	FP16	BF16
微调显存消耗(每卡)	47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT)	63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT)
提示词语言	English*
提示词长度上限	226 Tokens
视频长度	6 秒
帧率	8 帧 / 秒
视频分辨率	720 * 480，不支持其他分辨率(含微调)
位置编码	3d_sincos_pos_embed	3d_rope_pos_embed
下载链接 (Diffusers)	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel
下载链接 (SAT)	SAT

数据解释

使用 diffusers 库进行测试时，启用了全部diffusers库自带的优化，该方案未测试在非NVIDIA A100 / H100 外的设备上的实际显存 / 内存占用。通常，该方案可以适配于所有 NVIDIA 安培架构 以上的设备。若关闭优化，显存占用会成倍增加，峰值显存约为表格的3倍。但速度提升3-4倍左右。你可以选择性的关闭部分优化，这些优化包括:

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

多GPU推理时，需要关闭 enable_sequential_cpu_offload() 优化。
使用 INT8 模型会导致推理速度降低，此举是为了满足显存较低的显卡能正常推理并保持较少的视频质量损失，推理速度大幅降低。
2B 模型采用 FP16 精度训练， 5B模型采用 BF16 精度训练。我们推荐使用模型训练的精度进行推理。
PytorchAO 和 Optimum-quanto 可以用于量化文本编码器、Transformer 和 VAE 模块，以降低 CogVideoX 的内存需求。这使得在免费的 T4 Colab 或更小显存的 GPU 上运行模型成为可能！同样值得注意的是，TorchAO 量化完全兼容 torch.compile，这可以显著提高推理速度。在 NVIDIA H100 及以上设备上必须使用 FP8 精度，这需要源码安装 torch、torchao、diffusers 和 accelerate Python 包。建议使用 CUDA 12.4。
推理速度测试同样采用了上述显存优化方案，不采用显存优化的情况下，推理速度提升约10%。只有diffusers版本模型支持量化。
模型仅支持英语输入，其他语言可以通过大模型润色时翻译为英语。

四、友情链接

我们非常欢迎来自社区的贡献，并积极的贡献开源社区。以下作品已经对CogVideoX进行了适配，欢迎大家使用:

Xorbits Inference: 性能强大且功能全面的分布式推理框架，轻松一键部署你自己的模型或内置的前沿开源模型。
ComfyUI-CogVideoXWrapper 使用ComfyUI框架，将CogVideoX加入到你的工作流中。
VideoSys: VideoSys 提供了易用且高性能的视频生成基础设施，支持完整的管道，并持续集成最新的模型和技术。
AutoDL镜像: 由社区成员提供的一键部署Huggingface Space镜像。
Colab Space 使用 Jupyter Notebook 运行 CogVideoX-5B 模型的 Colab 代码。

五、完整项目代码结构

本开源仓库将带领开发者快速上手 CogVideoX 开源模型的基础调用方式、微调示例。

1、inference

cli_demo: 更详细的推理代码讲解，常见参数的意义，在这里都会提及。
cli_demo_quantization: 量化模型推理代码，可以在显存较低的设备上运行，也可以基于此代码修改，以支持运行FP8等精度的CogVideoX模型。请注意，FP8 仅测试通过，且必须将 torch-nightly,torchao源代码安装，不建议在生产环境中使用。
diffusers_vae_demo: 单独执行VAE的推理代码。
space demo: Huggingface Space同款的 GUI 代码，植入了插帧，超分工具。
convert_demo: 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的，所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM-4，也可以替换为GPT、Gemini等任意大语言模型。
gradio_web_demo: 一个简单的gradio网页应用，展示如何使用 CogVideoX-2B / 5B 模型生成视频。与我们的 Huggingface Space 类似，你可以使用此脚本运行一个简单的网页应用，用于生成视频。

cd inference
# For Linux and Windows users
python gradio_web_demo.py

# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

在这里插入图片描述