阿里开源视频生成模型Wan 2.1上线

最新推荐文章于 2025-04-07 15:32:49 发布

吴脑的键客

最新推荐文章于 2025-04-07 15:32:49 发布

阅读量1.4k

点赞数 23

分类专栏： AI作画文章标签：开源 AIGC 人工智能

本文链接：https://blog.csdn.net/weixin_41446370/article/details/146146901

版权

AI作画专栏收录该内容

113 篇文章

订阅专栏

近日，阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1，该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端，成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同，Wan2.1在复杂运动的细节处理上表现出色，能够流畅地实现多个人物的同步舞蹈，令人惊叹不已。

在这里插入图片描述

官方演示中，Wan2.1不仅成功克服了静态图像生成中的难题，如文字的处理更是达到了新的高度。对于普通用户来说，虽然14B 的参数在个人消费级显卡上部署较为困难，但阿里还特别推出了一个1.3B 的小版本，~~支持480P 分辨率，使用12GB 显存的4070显卡即可流畅运行~~(本人在Kaggle的 P100 16GB vram 没测试出来)。

除了14B 和1.3B 版本，阿里还发布了两个额外的视频生成模型，均采用 Apache2.0协议，意味着用户可以免费商用。在实际操作中，用户可以通过阿里提供的平台访问这款模型，快速生成视频，但由于用户量激增，有时可能会出现等待时间过长的情况。对于有一定技术基础的用户，还可以通过 HuggingFace 和魔搭社区等多种途径自行安装和调试。

Wan2.1最大的亮点在于其技术创新。该模型采用了 Diffusion Transformer 架构，并使用3D 变分自动编码器，专门为视频生成设计。通过引入多种压缩和并行策略，该模型在保证质量的同时，大幅度提高了生成效率。研究表明，Wan 的重建速度是当前同类技术的2.5倍，大大节省了计算资源。

在用户体验方面，Wan2.1也获得了众多好评。无论是生成动态场景中的细节，还是自然的物理效果，模型的表现都让人眼前一亮。用户们通过该模型不仅能够制作出高质量的视频作品，还能轻松实现文字的动态呈现，为创作带来了更多可能。

快速上手

克隆库：

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖：

# Ensure torch >= 2.4.0
pip install -r requirements.txt

模型下载

Models	Download Link	Notes
T2V-14B	🤗 Huggingface 🤖 ModelScope	Supports both 480P and 720P
I2V-14B-720P	🤗 Huggingface 🤖 ModelScope	Supports 720P
I2V-14B-480P	🤗 Huggingface 🤖 ModelScope	Supports 480P
T2V-1.3B	🤗 Huggingface 🤖 ModelScope	Supports 480P

💡注：1.3B 模型能够生成 720P 分辨率的视频。不过，由于在此分辨率下的训练有限，结果通常不如 480P 稳定。为获得最佳性能，我们建议使用 480P 分辨率。

使用 huggingface-cli 下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

使用 modelscope-cli 下载模型：

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B

Task	Resolution		Model
Task	480P	720P	Model
t2v-14B	✔️	✔️	Wan2.1-T2V-14B
t2v-1.3B	✔️	❌	Wan2.1-T2V-1.3B

单显卡推理

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（内存不足）问题、您可以使用 --offload_model True 和 --t5_cpu 选项可减少 GPU 内存使用量。例如，在 RTX 4090 GPU 上：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

注意：如果您使用的是 T2V-1.3B模型，我们建议设置参数--sample_guide_scale 6。--sample_shift 参数可根据性能在 8 到 12 的范围内调整。

使用 FSDP + xDiT USP 进行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."