阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

最新推荐文章于 2025-03-31 23:25:20 发布

蚝油菜花

最新推荐文章于 2025-03-31 23:25:20 发布

阅读量1.6k

点赞数 33

分类专栏：每日 AI 项目与应用实例文章标签：开源人工智能音视频人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/145890639

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎥 “阿里开源AI视频生成神器Wan2.1：文生视频、图生视频全搞定，性能超越Sora！”

大家好，我是蚝油菜花。你是否也遇到过——

👉 想制作创意视频，但缺乏专业的视频制作技能？
👉 需要生成复杂的动画场景，但时间和成本有限？
👉 想快速生成广告或教育视频，但找不到合适的工具？

今天揭秘的 Wan2.1，是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务，具备强大的视觉生成能力。无论是复杂的运动生成，还是物理规律的精准模拟，Wan2.1都能轻松应对。

14B参数的专业版Wan2.1模型在Vbench评测中以86.22%的成绩超越Sora、Luma等国内外模型，稳居榜首。1.3B参数的极速版则能在消费级显卡上运行，显存需求低，适合二次开发和学术研究。接下来，我们将深入解析Wan2.1的核心功能和技术原理，手把手教你如何运行这款强大的AI视频生成工具！

🚀 快速阅读

Wan2.1是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务。

核心功能：支持文生视频、图生视频、复杂运动生成、物理规律模拟、多风格生成和文字特效生成。
技术原理：基于因果3D VAE和视频Diffusion Transformer架构，实现高效时空压缩和长时程依赖建模。

Wan2.1 是什么

Wan2.1

Wan2.1是阿里云开源的一款AI视频生成大模型，具备强大的视觉生成能力。它支持文生视频和图生视频任务，包含两种尺寸的模型：14B参数的专业版擅长复杂运动生成和物理建模，性能卓越；1.3B参数的极速版能在消费级显卡上运行，显存需求低，适合二次开发和学术研究。

Wan2.1-cover-vben_vs_sota

Wan2.1模型基于因果3D VAE和视频Diffusion Transformer架构，实现高效时空压缩和长时程依赖建模。14B版本在权威评测集Vbench中，以总分86.22%大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。Wan2.1开源采用Apache 2.0协议，支持多种主流框架，已在GitHub、HuggingFace和魔搭社区上线，方便开发者使用和部署。

Wan2.1 的主要功能

文生视频：根据输入的文本描述生成对应的视频内容，支持中英文长文本指令，精准还原场景切换和角色互动。
图生视频：以图像为基础生成视频，实现更可控的创作，适合从静态图像扩展为动态视频的需求。
复杂运动生成：稳定展现人物或物体的复杂运动，如旋转、跳跃、转身等，支持高级运镜控制。
物理规律模拟：精准还原碰撞、反弹、切割等真实物理场景，生成符合物理规律的视频内容。
多风格生成：支持多种视频风格和质感，适配不同创作需求，同时支持不同长宽比的视频输出。
文字特效生成：具备中文文字生成能力，支持中英文文字特效，提升视频的视觉表现力。

Wan2.1 的技术原理

Wan2.1-video_vae_res

因果3D VAE（Variational Autoencoder）架构：万相自研专为视频生成设计的因果3D VAE架构。基于编码器将输入数据压缩为潜在空间的表示，再用解码器重建输出。在视频生成中，3D VAE能处理视频中的时空信息，同时结合因果性约束，确保视频生成的连贯性和逻辑性。
视频Diffusion Transformer架构：基于主流的视频Diffusion（扩散模型）和Transformer架构。扩散模型逐步去除噪声生成数据，Transformer基于自注意力机制（Attention）捕捉长时程依赖关系。
模型训练和推理优化：
- 训练阶段：用DP（数据并行）和FSDP（全Sharded数据并行）组合的分布式策略，加速文本和视频编码模块的训练。对于Diffusion模块，基于DP、FSDP、RingAttention和Ulysses混合的并行策略，进一步提升训练效率。
- 推理阶段：用CP（通道并行）进行分布式加速，减少生成单个视频的延迟。对于大模型，基于模型切分技术，进一步优化推理效率。

如何运行 Wan2.1

安装

克隆仓库：

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖：

# 确保 torch >= 2.4.0
pip install -r requirements.txt

模型下载

模型	备注
T2V-14B	支持480P和720P
I2V-14B-720P	支持720P
I2V-14B-480P	支持480P
T2V-1.3B	支持480P

T2V-14B 模型权重：
- https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
- https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-14B
I2V-14B-720P 模型权重：
- https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P
- https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P
I2V-14B-480P 模型权重：
- https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-480P
- https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-480P
T2V-1.3B 模型权重：
- https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B
- https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B

使用huggingface-cli下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

运行文生视频生成

1. 不使用提示扩展

单GPU推理

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗。"

多GPU推理（使用FSDP + xDiT USP）

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗。"

2. 使用提示扩展

使用Dashscope API进行扩展

DASH_API_KEY=your_key python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

使用本地模型进行扩展

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

3. 运行本地Gradio

cd gradio
# 如果使用Dashscope API进行提示扩展
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B

# 如果使用本地模型进行提示扩展
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B

运行图生视频生成

1. 不使用提示扩展

单GPU推理

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "夏日海滩度假风格，一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头，表情放松。模糊的海滩风景形成了背景，展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态，仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"

多GPU推理（使用FSDP + xDiT USP）

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "夏日海滩度假风格，一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头，表情放松。模糊的海滩风景形成了背景，展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态，仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"

2. 使用提示扩展

使用本地模型进行扩展

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-VL-7B-Instruct --prompt "夏日海滩度假风格，一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头，表情放松。模糊的海滩风景形成了背景，展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态，仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"

使用Dashscope API进行扩展

DASH_API_KEY=your_key python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_method 'dashscope' --prompt "夏日海滩度假风格，一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头，表情放松。模糊的海滩风景形成了背景，展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态，仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"

3. 运行本地Gradio

cd gradio
# 如果仅使用480P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P

# 如果仅使用720P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P

# 如果同时使用480P和720P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P --ckpt_dir_720p ./Wan2.1-I2V-14B-720P

运行文生图生成

1. 不使用提示扩展

单GPU推理

python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B  --prompt '一个朴素端庄的美人'

多GPU推理（使用FSDP + xDiT USP）

torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B  --size 1024*1024 --prompt '一个朴素端庄的美人' --ckpt_dir ./Wan2.1-T2V-14B

2. 使用提示扩展

单GPU推理

python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B  --prompt '一个朴素端庄的美人' --use_prompt_extend

多GPU推理（使用FSDP + xDiT USP）

torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B  --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt '一个朴素端庄的美人' --use_prompt_extend