Wan: Open and Advanced Large-Scale Video Generative Models
目录
1. 引言
当前开源模型存在三大问题:性能与闭源模型差距大、应用场景有限、效率较低,限制了社区的发展。
本文提出了视频基础模型系列 Wan,旨在推动开放视频生成模型的边界。
- Wan 基于 Diffusion Transformer(DiT)和 Flow Matching 框架,设计高效架构,
- 通过创新的时空(spatio-temporal)变分自编码器(VAE)提升文本可控性与动态建模能力
- 模型使用超过万亿 tokens 的图像与视频训练,在运动幅度、质量、风格多样性、文本生成、摄像机控制等方面均展现强大能力
Wan 提供两个版本:适配消费级显卡的 1.3B 参数模型和能力强大的 14B 参数模型,支持包括图像生成视频、指令引导视频编辑和个性化视频生成在内的 8 项下游任务,是首个能生成中英视觉文本的模型。此外,Wan 1.3B 仅需 8.19GB 显存,显著降低部署门槛。
2. 相关工作
随着生成建模技术的发展,视频生成模型尤其是在扩散模型框架下取得了显著进展。相关工作主要可分为两个方向:闭源模型和开源社区贡献。
闭源模型方面,大厂主导的发展进度快速,目标是生成具备专业质量的视频。代表性模型包括:
-
OpenAI Sora(2024 年 2 月),标志性成果,极大推动视频生成质量;
-
Kling(快手)和Luma 1.0(Luma AI)(2024 年 6 月);
-
Runway Gen-3(2024 年 6 月)在 Gen-2 基础上优化;
-
Vidu(声树 AI,2024 年 7 月)采用自研 U-ViT 架构;
-
MiniMax Hailuo Video(2024 年 9 月)和 Pika 1.5(Pika Labs,2024 年 10 月);
-
Meta Movie Gen 和 Google Veo 2(2024 年 12 月)进一步增强物理理解与人类动态感知能力。
- 这些闭源模型借助强大算力与数据资源在生成质量、真实感、细节控制等方面具有优势。
开源社区方面,虽然起步略晚,但发展迅速,取得重要突破。现有视频扩散模型多数基于 Stable Diffusion 架构,由三个关键模块构成:
-
自动编码器(VAE):将视频压缩至潜空间,常见如标准 VAE(Kingma, 2013)、VQ-VAE(Van Den Oord, 2017)、VQGAN(Esser et al., 2021)等,近期 LTX-Video(HaCohen et al., 2024)更进一步提升重建质量;
-
文本编码器:多数使用 T5(Raffel et al., 2020)或结合 CLIP(Radford et al., 2021),如 HunyuanVideo 使用多模态大语言模型增强文本-视觉对齐;
-
扩散神经网络:多采用 3D U-Net 结构(VDM),或 1D 时间 + 2D 空间注意力结构(Zhou et al., 2022),最新架构则采用Diffusion Transformer(DiT)结构(Peebles & Xie, 2023),以 Transformer 替代 U-Net,在视觉任务中表现优越。
在此基础上,多个开源视频模型如 Mochi、HunyuanVideo、LTX-Video、CogVideoX 等相继发布。Wan 模型在此基础上精心选择与优化各核心组件,力求在生成质量上实现突破。
此外,开源社区也积极探索下游任务,包括图像补全、视频编辑、可控生成与参考帧生成等,常通过适配器结构或ControlNet增强用户控制能力。
Wan 不仅整合上述核心技术,还在多个下游任务上进行了系统设计与评估,推动生成模型从“能生成”向“能控制、高质量、可泛化”迈进。
3. 数据处理流程
高质量的大规模训练数据是生成模型性能的基石。Wan 构建了完整自动化的数据构建流程,以 “高质量、高多样性、大规模” 为核心原则,整理了数十亿级图像与视频数据。
数据分为 预训练(pre-training)数据、后训练(post-training)数据 和 视频密集描述(Dense Video Caption)三个阶段进行处理。
3.1 预训练数据
预训练阶段的数据来自内部版权素材与公开数据,通过以下四步筛选:
1)基础属性筛选:通过多维度过滤提升基础数据质量:
-
文本检测:使用轻量 OCR 过滤文字遮挡严重视频/图像;
-
美学评分:采用 LAION-5B 的打分器剔除低美感数据;
-
NSFW 评分:内部安全模型评估并移除违规内容;
-
水印 / LOGO / 黑边检测:裁剪干扰区域;
-
曝光异常检测:移除光感异常内容;
-
模糊与伪图检测:利用模型打分移除失焦和合成图(污染率 <10% 即可显著影响性能);
-
时长 / 分辨率限制:视频需大于 4 秒,且低分辨率视频按阶段剔除。
该流程去除约 50% 原始数据,为后续高语义挑选做准备。
2)视觉质量筛选:
- 数据首先聚类为 100 类,防止长尾数据缺失后影响分布,
- 再按每类选样本进行人工打分(1~5分),训练质量评估模型自动评分,选出高评分样本。
3)运动质量筛选:运动质量划分六档:
-
最优运动:运动幅度、视角、透视感良好,动作清晰流畅;
-
中等运动:运动明显但有遮挡或多主体;
-
静态视频:主要为访谈等高质量但动作少的视频,降低采样比例;
-
相机驱动运动:相机移动为主,主体静止,如航拍,采样比例较低;
-
低质量运动:场景混乱或遮挡严重,直接剔除;
-
抖动镜头:非稳定镜头导致的模糊失真,系统性剔除。
4)视觉文本数据构建:为提升视觉文本生成能力,结合两类数据来源:
-
合成路径:将中文字渲染在白底图上,构造数亿样本;
-
真实路径:从真实图像中提取中英文文本,结合 Qwen2-VL 生成详细描述。
- 该策略帮助模型学会生成稀有字词,显著增强视觉文字生成质量。
3.2 后训练数据
后训练阶段旨在提升模型生成视频的 清晰度与运动效果,分别对图像与视频数据采用不同处理策略。
-
图像数据:从评分较高图像中,采用专家模型选出前 20% 并手动补充关键概念,确保多样性与覆盖度,构成百万级高质量图像集。
-
视频数据:从视觉质量与运动质量双重评分中选取若干百万级视频,涵盖 “技术、动物、艺术、人类、交通” 等 12 大类,以强化泛化能力。
3.3 视频密集描述
为增强模型对指令的理解能力,Wan 构建了大规模密集视频描述数据集,涵盖图像与视频描述、动作识别、OCR 等多个维度,数据来源包括:
3.3.1 开源数据集
整合多种视觉问答、图像/视频描述数据集及纯文本指令数据,支持多维度理解与生成。
3.3.2 自建数据集
围绕若干核心能力设计:
-
名人/地标识别:通过 LLM 与 CLIP 筛选高质量图像;
-
物体计数:结合 LLM 与 Grounding DINO 进行一致性过滤;
-
OCR 增强:提取文本后再由模型生成描述;
-
相机角度与运动识别:人工标注+专家模型辅助增强控制能力;
-
细粒度类别识别:覆盖动物、植物、交通工具等;
-
关系理解:聚焦 “上下左右” 空间位置;
-
再描述:将短标注扩展为完整描述;
-
编辑指令生成:配对两图,生成描述差异的指令;
-
多图描述:先描述公共属性,再描述各自差异;
-
人工标注数据:最终训练阶段使用最高质量的图像 / 视频密集标注。
3.3.3 模型设计
(2023|NIPS,LLaVA,指令遵循,预训练和指令微调,Vicuna,ViT-L/14,LLaVABench)视觉指令微调
(2024|CVPR,LLaVA-1.5,LLaVA-1.5-HD,CLIP-ViT-L-336px,MLP 投影,高分辨率输入,组合能力,模型幻觉)通过视觉指令微调改进基线
(2024,LLaVA-NeXT(LLaVA-1.6),动态高分辨率,数据混合,主干扩展)
Wan 的描述生成模型采用 LLaVA 风格架构,结合视觉与语言多模态输入,设计要点如下:
-
视觉编码器:使用 ViT(Vision Transformer)提取图像和视频帧的视觉特征;
-
投影网络:视觉特征通过两层感知机投射至语言模型输入空间;
-
语言模型:使用 Qwen LLM(QwenTeam, 2024)作为生成器;
输入结构:
-
图像输入采用动态高分辨率切分为最多 7 块(patch),每块特征下采样为 12×12;
-
视频输入按每秒 3 帧采样,最多 129 帧;
Slow-Fast 编码机制:
-
每 4 帧保留原始分辨率;
-
其他帧采用全局平均池化;
-
显著提升长视频理解能力(如在 VideoMME 提升从 67.6% → 69.1%)。
该架构兼顾精度与效率,适配图像、视频、多图等不同输入类型。
3.3.4 模型评估
为自动化评估 Wan 的视频描述能力,团队设计了多维度评测流程,参考 CAPability(Liu et al., 2025b)方法:
评估维度(共10项):
-
动作(Action)
-
摄像机角度(Camera Angle)
-
摄像机运动(Camera Motion)
-
对象类别(Category)
-
对象颜色(Color)
-
计数能力(Counting)
-
OCR(视觉文字)
-
场景类型(Scene)
-
风格(Style)
-
事件(Event)
评估流程:
-
随机抽取 1000 个视频样本;
-
分别由 Wan 的模型与 Google Gemini 1.5 Pro 生成描述;
-
使用 CAPability 自动评分,计算每个维度的 F1 值。
结果分析:
-
Wan 明显优于 Gemini 在:事件、摄像角度、摄像运动、风格、颜色;
-
Gemini 在 OCR、类别识别、动作理解等方面略占优势;
-
两者整体性能相近,Wan 在生成控制性与视频结构理解上表现更佳。
4. 模型设计与加速
Wan 模型基于 Diffusion Transformer(DiT)架构设计,包含自研时空变分自编码器 Wan-VAE、Diffusion Transformer 主干、文本编码器 umT5,以及一系列推理加速与内存优化机制。
4.1 时空变分自编码器
4.1.1 模型设计
为压缩高维度视频数据并保持时序一致性,Wan 设计了 3D 因果结构的 Wan-VAE,具备以下特点:
-
输入视频 V ∈ R^{(1+T) × H × W × 3} 经压缩得到潜变量 x ∈ R^{(1+T/4) × H/8 × W/8 × C},其中通道数 C = 16;
-
第一帧仅做空间压缩,参考 MagViT-v2;
-
所有 GroupNorm 替换为 RMSNorm 以保持时间因果性;
-
解码端特征通道减半,减少推理内存 33%。
Wan-VAE 参数量为 127M,显著小于同类模型。
4.1.2 训练
采用三阶段训练策略:
-
训练 2D VAE;
-
将其膨胀为 3D 结构,在低分辨率小帧数视频上训练;
-
微调至高分辨率、多帧数视频,加入 3D 判别器 GAN loss。
损失函数包括:
-
L1 重建损失;
-
KL 散度;
-
LPIPS 感知损失
-
加权系数:3,3e-6 ,3
4.1.3 高效推理
为支持长视频推理,引入 chunk-based 特征缓存机制:
-
每个 chunk 对应一组潜变量,缓存前一 chunk 的特征以实现上下文连续;
-
默认设置下使用 2 帧缓存,支持因果卷积;
-
对于 2× 时间下采样场景,采用 1 帧缓存与零填充。
该机制可推理任意长度视频,且在显存使用上优于传统方法。
4.1.4 评估
量化评估 对比显示:
-
Wan-VAE 在 PSNR(视频质量)和每帧延迟(效率)上优于 HunYuanVideo、CogVideoX、Mochi 等;
-
在同一硬件环境下,速度提升约 2.5×。
质量评估 显示:在纹理、人脸、文本与高运动场景下,Wan-VAE 保留更多细节、减少失真。
4.2 模型训练
Wan 主干采用 DiT 架构,包含:
-
Wan-VAE(视频编码);
-
Diffusion Transformer;
-
文本编码器 umT5(多语言支持强,收敛快);
视频经 VAE 编码为潜变量,后由 DiT 生成。
(2023|ICCV,DiT,扩散 transformer,Gflops)使用 Transformer 的可扩展扩散模型
4.2.1 视频 DiT
Transformer 模块采用以下设计:
-
3D Patchify(卷积核为 1×2×2),展开为序列;
-
每层 Transformer 块包含自注意力、交叉注意力(文本)、时间步嵌入;
-
时间步嵌入通过 MLP 生成六组调节参数;
-
所有 Transformer 层共享该 MLP,节省约 25% 参数量。
4.2.2 预训练策略
采用 Flow Matching 框架建模视频生成流程:
给定视频潜变量 x_1、噪声 x_0 ∼ N(0,I) 与时间步 t ∈ [0,1],中间状态为:
模型预测速度向量:
损失函数为:
训练阶段包括:
-
低分辨率图像预训练(256px),构建跨模态对齐能力;
-
图像-视频联合训练,按分辨率逐步升高(192px → 480px → 720px);
-
使用 bf16 精度与 AdamW 优化器,初始学习率 1e-4,动态衰减。
4.2.3 后训练
沿用预训练配置,在高质量后训练数据上继续训练,进一步提升视觉细节与运动建模。
4.3 模型扩展与训练效率
Wan 针对大模型训练的高资源消耗问题,设计了一系列优化策略,包括工作负载分析、并行策略、显存优化及集群稳定性保障。
4.3.1 工作负载分析
在 Wan 的训练中,Diffusion Transformer(DiT)占据超过 85% 的计算资源,而文本编码器与 VAE 编码器计算量较小,且在训练阶段被冻结,仅推理使用。
DiT 的计算开销 由以下表达式近似:
其中:
-
L:DiT 层数;
-
b:micro-batch 大小;
-
s:序列长度(token 数);
-
h:隐藏维度;
-
α:线性层复杂度;
-
β:注意力层复杂度(Wan 中前向为 4,反向为 8);
与 LLM 不同,Wan 中的视频序列长度 s 可达百万级,注意力计算成为训练瓶颈。在序列长度为 1M 时,注意力计算时间可达训练总时间的 95%。
内存占用 近似为: γLbsh,其中 γ 为实现(implementation)相关系数(LLM 中约为 34,Wan 中可超 60),当 batch size = 1,14B 参数的 DiT 激活内存需求可达 8 TB。
4.3.2 并行策略
Wan 的三大模块(VAE、Text Encoder、DiT)采用不同的并行方式:
-
VAE:内存占用小,使用数据并行(Data Parallel,DP);
-
Text Encoder:显存需求高(>20GB),采用权重切分(FSDP);
-
DiT:采用多维并行策略
DiT 的并行策略:为应对巨量激活内存与计算成本,采用以下组合:
-
FSDP(Fully Sharded Data Parallel):参数、梯度、优化器状态均切分;
-
上下文并行(Context Parallel,CP):沿序列长度 s 分片,包含:
-
Ulysses(内层);
-
Ring Attention(外层),实现跨节点通信重叠;
-
-
数据并行(DP):进一步扩展 batch size。
如图 11,128 GPU 配置下:
-
Ulysses = 8,Ring = 2,CP = 16;
-
FSDP = 32;
-
DP = 4;
-
全局 batch size = 8b。
此混合策略结合通信效率与内存分布优势。
模块切换机制:
- 由于 VAE 与 Text Encoder 使用 DP,DiT 使用 CP,为避免冗余计算,在切换到 CP 前使用广播策略共享必要数据。
- 该方法将 VAE/Text Encoder 推理时间缩短为原来的 1/CP,从而提升整体效率。
4.3.3 显存优化
Wan 在长序列场景中优先使用 激活迁移(Activation Offloading),替代传统的 梯度检查点(Gradient Checkpointing,GC):
-
激活迁移允许将激活缓存转移到 CPU,同时与计算重叠;
-
PCIe 传输时间通常只占 1~3 层 DiT 的计算时间,适合重叠;
-
CPU 内存易耗尽时,结合 GC 策略使用。
该策略有效降低了显存压力,特别适用于 720p 长视频训练。
4.3.4 集群稳定性
依托阿里云训练平台,Wan 使用以下机制保障超大规模训练稳定性:
-
启动前检测机器健康状况,避免分配异常节点;
-
训练中实时隔离故障节点,自动修复并恢复任务;
-
智能调度提升资源利用率;
- 以上机制确保了训练作业在长周期内的高稳定性与可扩展性。
4.4 推理
Wan 在推理阶段针对长序列、多步采样的特点,设计了高效的并行化策略与缓存机制,并结合量化技术,显著降低延迟与内存需求。
4.4.1 并行策略
推理过程涉及约 50 步扩散采样,需优化每步生成的延迟。Wan 结合训练期相同的策略:
-
模型切分(FSDP):在长序列推理中通信开销较小,支持参数分片;
-
2D 上下文并行(2D-CP):如训练中所述,外层为 Ring Attention,内层为 Ulysses,适配长序列;
-
线性加速:如图 12 所示,Wan 14B 在多个 GPU 上接近线性加速。
4.4.2 扩散缓存
推理过程中存在以下可利用特性:
-
注意力相似性:同一 DiT 层中,多个采样步之间注意力输出差异小;
-
CFG 相似性:在采样后期,带条件与无条件生成结果接近。
Wan 借助这些现象构建 Diffusion Cache 机制:
-
Attention Cache:每隔若干步执行一次注意力前向,并缓存其结果,其他步复用;
-
CFG Cache:后期跳过无条件路径,仅对条件路径前向,结果通过残差补偿恢复细节;
-
结果:在不降低质量的前提下,14B 模型推理效率提升 1.62 倍。
该机制参考了 DiTFastAttn(Yuan et al., 2024b)与 FasterCache(Lv et al., 2024)等近期研究。
4.4.3 量化
为进一步加速推理,Wan 采用两类量化技术:
1)FP8 GEMM 运算
-
所有 GEMM 运算均使用 FP8 精度;
-
权重按张量(per-tensor)量化,激活按 token(per-token)量化;
-
实验显示损失极小,且 DiT 模块加速 1.13×,GEMM 性能提升 2×。
2)FlashAttention3 的 8-bit 优化
虽然 FlashAttention3 原生 FP8 实现存在精度损失,Wan 通过如下优化提升效果:
-
混合 8-bit 优化:Q、K、V 使用 INT8 表示内积 S = QK^T,而 O = PV 用 FP8;
-
跨块 FP32 累积:使用 FP32 寄存器对跨块结果做高精度累加,借鉴 DeepSeek-V3 的策略。
为了兼顾数值精度与 kernel 性能,Wan 还引入以下优化:
-
FP32 累积融合流水线(Float32 Accumulation + Intra-Warpgroup Pipelining):
-
FlashAttention3 原生通过 intra-warpgroup pipeline 并行 Softmax、Scaling 与 WGMMA;
-
Wan 在此基础上将 FP32 累积策略融合进流水线中,实现高精度无额外延迟。
-
4.5 提示对齐
为提升文本驱动的生成一致性,Wan 在训练过程中增强了提示对齐能力:
-
注意力设计:采用 Cross-Attention 将文本信息注入视频生成过程,使模型能更好地理解描述意图;
-
语言建模:使用 umT5 文本编码器提供高质量跨语言、多粒度语义嵌入;
-
训练数据辅助:借助高质量视频密集描述数据集(第 3.3 节),显著增强模型对提示内容的理解与跟随能力。
同时,针对稀有概念(如特殊角色或复杂动作),Wan 在训练中动态采样包含此类信息的数据,提升稀有提示的响应能力。
通过上述设计,Wan 在多个任务上均能展现优异的文本控制力,包括图像生成视频(I2V)、个性化生成、视频编辑等。
4.6 基准评测
现有的视频生成评估指标,如 Fréchet Video Distance(FVD)和 Fréchet Inception Distance(FID),在与人类感知的一致性方面存在明显不足。为此,本文提出了一套 自动化、全面且符合人类偏好 的新评估体系:Wan-Bench,用于衡量视频生成模型的综合表现。
Wan-Bench 从三个核心维度出发:动态质量(Dynamic Quality)、图像质量(Image Quality)、指令跟随能力(Instruction Following),共包含 14 个细粒度指标,并针对每个维度设计了特定的评分算法,结合传统检测器与多模态大模型(MLLM)实现自动评估。
1)动态质量:该维度评估模型在非静态场景下的表现,包括以下方面:
-
大幅度动作生成:通过特定 prompt 激发大运动,使用 RAFT 计算视频光流并归一化,评估动作幅度。
-
人类伪迹检测(Human Artifacts):训练基于 YOLOv3 的检测器,对 20,000 张 AI 生成图像标注伪迹,综合置信度、边界框与持续时间得出评分。
-
物理合理性与流畅度:
-
使用物理相关 prompt(如球弹跳、流体);
-
基于 Qwen2-VL 模型问答判断是否存在违反物理规律(如穿模、悬浮);
-
复杂动作流畅度由 Qwen2-VL 识别伪迹并评分。
-
-
像素级稳定性:在静态区域计算帧间差异,差异越小表明稳定性越高。
-
身份一致性:包括人类、一致动物、目标物体等,使用 Frame-level DINO 特征提取,衡量帧间相似度。
2)图像质量:该维度评估每帧图像的视觉效果与美学属性:
-
综合图像质量:
-
清晰度评估使用 MANIQA 检测模糊与伪迹;
-
美学评估结合 LAION 美学预测器与 MUSIQ;
-
三者得分取平均作为最终图像质量分数。
-
-
场景生成质量:
-
帧间一致性:使用 CLIP 计算连续帧相似度;
-
语义一致性:使用 CLIP 计算帧图与文本之间相似度;
-
综合加权得出评分。
-
-
风格化能力:使用 Qwen2-VL 回答图像风格相关问题,评估艺术生成能力。
3)指令跟随能力:该维度评估模型对文本指令的理解与执行效果:
-
目标与位置关系:
-
Qwen2-VL 预测对象类别、数量与相对空间位置;
-
统计满足条件的帧比例,作为最终得分。
-
-
相机控制:
-
涉及 5 种机位动作:横移、升降、缩放、航拍、跟拍;
-
对于横移、升降、缩放使用 RAFT 光流分析;
-
航拍、跟拍使用 Qwen2-VL 视频问答评估。
-
-
动作执行:
-
涵盖人类(如奔跑)、动物(如爬行)、物体(如飞行)等动作;
-
提取关键帧,Qwen2-VL 回答该动作是否执行、是否完成、是否存在伪迹,综合得分。
-
4)用户反馈引导的权重策略:不同维度对人类偏好的影响不同,因此 Wan-Bench 引入了基于用户反馈的加权评分机制:
-
收集了超过 5,000 对视频样本的人工对比评价;
-
用户基于相同 prompt 比较两个视频,并赋予偏好与分数;
-
使用 Pearson 相关系数 计算模型打分与人类偏好之间的相关性;
-
将此相关性作为权重,用于最终 Wan-Bench 综合得分的加权平均。
- 这一策略使得 Wan-Bench 不仅能自动评估模型性能,更能够模拟人类主观感知,更贴近实际使用场景中的评价标准。
4.7 模型评估
4.7.1 指标与结果
基准模型与评估指标:目前已有众多具代表性的文本生成视频(T2V)模型可供对比,涵盖商用闭源与开源系统:
-
闭源模型:Kling(快手,2024.06)、Hailuo(海螺,MiniMax,2024.09)、Sora(OpenAI,2024)、Runway(2024.06)、Vidu(声树AI,2024.07);
-
开源模型:Mochi(GenmoTeam,2024)、CogVideoX(Yang et al., 2025b)、HunyuanVideo(Kong et al., 2024)等。
定量评估结果:
-
评估样本:为每个模型收集 1,035 个统一 Prompt 条件下的生成样本;
-
评估维度:分别从三项核心指标进行评分:
-
动态质量(Dynamic Quality)
-
图像质量(Image Quality)
-
指令跟随能力(Instruction Following Accuracy);
-
-
评分方式:使用 Wan-Bench 全自动评估框架,按 第 4.6 节定义的人类偏好加权规则 计算总分。
评估结果见表 2,Wan 在这三大指标上均领先主流商业模型与开源系统,说明其在实际视频生成任务中具有全面的优势表现。
定性结果分析:图 15 展示了 Wan 模型的多种文本驱动生成示例,展示其优异的生成能力:
-
大规模复杂动作合成:可稳定生成包含多个物体、多视角、剧烈运动的场景;
-
物理交互场景建模:物体间的碰撞、反弹、水流等动作自然流畅;
-
风格化与美学表现:兼容多种艺术风格,具有电影级画面美感;
-
多语言文本生成能力:可将中英文文字嵌入视频,并呈现出高度一致的视觉文字效果,支持字幕类动画生成。
人类评价结果:
-
设计了 超过 700 个评测任务;
-
由 20+ 名标注人员完成人工打分,维度包括:
-
Prompt 对齐(Alignment)
-
图像质量(Image Quality)
-
动态质量(Dynamic Quality)
-
整体质量(Overall Quality);
-
表 3 结果显示:Wan-14B 模型在所有维度上均表现优异,T2V 任务中领先于其他模型,体现其在 人类感知层面 的生成优势。
公共榜单表现(Wan in Public Leaderboard):Wan 还在开放视频生成评测榜单 VBench(Huang et al., 2023) 上展现出 SOTA(State-of-the-Art)性能:
-
VBench 由多个维度组成(共 16 项),覆盖审美质量、运动流畅性、语义一致性等方面;
-
Wan 参评版本包括:
-
Wan-14B
-
Wan-1.3B;
-
表 4 显示:
-
Wan-14B 在该榜单中总得分 86.22%;
-
其中视觉质量得分为 86.67%,语义一致性得分为 84.44%;
-
位列当前所有参评模型首位。
4.7.2 消融实验
1)自适应归一化层的消融实验:基于 DiT 中的 AdaLN(Adaptive LayerNorm)进行实验,主要探讨两种策略的优劣:
-
增大 AdaLN 参数量(即不共享参数)
-
增加网络深度(保持参数量不变)
借鉴 PixArt 的做法,设计了以下四种模型配置:
-
Full-shared-AdaLN-1.3B:30 层注意力模块,所有层共享 AdaLN(参数最少)
-
Half-shared-AdaLN-1.5B:前 15 层共享,后 15 层不共享,参数增至 1.5B
-
Full-shared-AdaLN-1.5B (extended):仍共享 AdaLN,但将层数扩展至 35 层,参数 1.5B
-
Non-shared-AdaLN-1.7B:不共享AdaLN,保持30层,参数最多(1.7B)
所有模型在 Text-to-Image 任务中训练 200k 步,并对比 latent 空间中的 L2 训练损失。实验结果显示:
-
Full-shared-AdaLN-1.5B(增加层数)性能优于 Non-shared-AdaLN-1.7B(增加参数)
-
说明 增加深度比增加参数更有效
最终,选用参数共享的 AdaLN 设计,兼顾性能与效率。
2)文本编码器的消融实验:对比三种支持中英双语的文本编码器:
-
umT5 (5.3B)
-
Qwen2.5-7B-Instruct
-
GLM-4-9B
训练配置保持一致,均在 text-to-image 任务中训练,并分析其训练损失曲线(如图 17)。结果表明:
-
umT5 表现最佳,训练损失最低。
-
其优势源自采用 双向注意力机制,更适合扩散模型(对比 Qwen 和 GLM 的单向因果注意力)。
-
后续还对比了 Qwen-VL-7B-Instruct,使用其第二层输出时,效果接近 umT5,但模型体积更大。
3)自动编码器消融:设计了一个变体 VAE-D,将传统的重建损失替换为 扩散损失。在 text-to-image 任务中分别训练 VAE 和 VAE-D 模型,训练步数为 150k,结果如下:
结果表明,VAE 的 FID 更低,即生成质量更好。因此主模型继续采用原始的 VAE 结构。
5. 扩展应用
5.1 图像到视频生成
5.1.1 模型设计
Wan 在图像生成视频(I2V)任务中引入图像作为首帧控制生成过程:
-
输入构建:将条件图像与零帧拼接后,经 Wan-VAE 编码为潜变量 z_c,并引入掩码 M 标记保留与生成帧。
-
模型结构:将噪声潜变量、条件潜变量与掩码拼接输入 DiT 模型;由于通道数增加,使用额外投影层适配。
-
图像语义注入:利用 CLIP 图像编码器提取特征,经 MLP 投影后通过交叉注意力注入模型,提供全局语义信息。
多任务统一框架:该方法适用于图像生成视频、视频续接、首尾帧变换等任务,统一以掩码机制控制输入与输出。
训练策略:
-
联合预训练阶段:使用与文本生成视频(T2V)相同的数据集,使模型具备基本的图像驱动生成能力。
-
微调阶段:为每个任务准备专门的数据集,提升任务特定性能。
5.1.2 数据集
图像生成视频(I2V):为确保首帧与视频内容一致性,计算首帧与剩余帧的 SigLIP 特征余弦相似度,仅保留相似度高的视频样本。
视频续接:选择时间连续性强的视频,基于视频开头 1.5 秒和结尾 3.5 秒的 SigLIP 特征相似度进行筛选。
首尾帧转换:更关注首帧与尾帧之间的平滑过渡,优先保留具有明显变化的样本以增强过渡效果。
5.1.3 评估
实验设置:基于480p 和 720p 两个预训练模型,分别微调 I2V、视频续接与首尾帧转换任务。
评估方式:参考 T2V 评估,比较视觉质量、运动质量和内容匹配度,并与 SOTA 方法对比。
结果(表 7)显示 Wan 在各项指标上均表现优越。
5.2 统一视频编辑
Wan 提出一个统一的视频编辑框架,支持多种编辑任务,如文本引导编辑、风格迁移、画面插入/删除等。
5.2.1 模型设计
输入形式:包含原始视频、编辑目标(如文本指令或图像条件)及掩码信息。
条件编码:视频帧和掩码通过 Wan-VAE 编码为上下文token,与噪声视频token结合输入模型。
概念解耦:
-
与 I2V 模型类似,采用掩码标记保留与需要生成的帧或区域,实现灵活编辑。
-
二者均通过 Wan-VAE 编码并对齐到统一潜空间,确保清晰的编辑任务分工与收敛稳定。
上下文适配调优(Context Adapter Tuning):
-
引入 Context Blocks 处理上下文 token,然后注入 DiT 主干模型,无需修改原始模型参数,实现灵活编辑扩展。
参考图像处理:参考图像单独编码,并拼接进时间维中,解码时去除对应部分,防止与视频混淆。
5.2.2 数据集与实现
数据构建:为训练统一视频编辑模型,构建涵盖多模态输入的数据集,包括目标视频、源视频、局部掩码、参考图像等。
数据处理流程:
-
视频先进行镜头切分与初筛(基于分辨率、美学得分、运动幅度)。
-
首帧通过 RAM 与 Grounding DINO 做实例检测,筛除目标过小或过大的样本。
-
使用 SAM2 进行视频级实例分割,并依据掩码面积筛选高质量连续帧。
针对不同编辑任务采用差异化数据构建策略,确保数据多样性与任务适应性。
实现细节:模型基于 Wan-T2V-14B 微调,最高支持 720p。
训练流程分三阶段:
-
在修复、延展等基础任务上训练,强化时空上下文理解;
-
扩展至多参考帧与组合任务;
-
进一步精调,提升质量与时序一致性。
5.2.3 评估
结果:Wan 单一模型在多个编辑任务中均表现出色,具备优良的视频质量和时间一致性。
扩展能力(图 24 (a)):展示了模型跨任务组合能力,例如风格迁移+内容插入等复合编辑。
通用性(图 24 (b)):VACE 框架同样适用于图像生成与编辑,验证了其广泛适配性。
5.3 文本生成图像
联合训练策略:Wan 同时在图像和视频数据上进行训练,不仅具备强大的视频生成能力,也展现出卓越的图像合成效果。
数据比例:图像数据集规模约为视频的 10 倍,有效促进了图像与视频任务之间的跨模态知识迁移。
图像生成表现:
-
支持多样化风格与内容;
-
可生成包括艺术文字图像、写实人像、创意设计、产品摄影等在内的高质量图像。
效果展示:图 25 展示了多种图像类别下 Wan 的高保真生成结果。
5.4 视频个性化
目标是生成与用户提供参考图像身份一致的视频内容。Wan 集成了先进的视频个性化技术,取得领先性能。
5.4.1 模型设计
主要挑战:
-
获取高保真身份信息;
-
将身份特征无缝融入生成流程。
核心策略:
-
不依赖 ArcFace 或 CLIP 等提取器,避免信息丢失;
-
直接使用 Wan-VAE 的潜空间输入人脸图像作为个性化条件;
-
采用 自注意力机制 注入身份信息,比交叉注意力更适配潜空间建模。
具体流程:
-
将提取的人脸图像扩展为前 K 帧;
-
在通道维拼接人脸图像与对应的掩码(前 K 帧为全 1,后续帧为全 0);
-
使用扩展视频作为输入进行扩散过程,实现 “修复式” 个性化生成;
-
支持 0~K 张参考图生成,通过训练时随机丢弃部分人脸帧实现泛化。
5.4.2 数据集
从 Wan-T2V 的训练集中过滤构建个性化子集(约 O(10)M 视频):
-
筛选标准包括单人脸、面部检测覆盖率、帧间一致性(ArcFace 相似度)、人脸分割与对齐。
-
不排除小尺寸人脸,保留全身人像样本。
通过 自动合成 增强多样性:
-
利用 Instant-ID 对 O(1)M 视频生成风格多样的人脸;
-
随机组合姿态 + 文本模板(如动漫、电影、Minecraft 风格等)生成合成样本;
-
保留 ArcFace 相似度高的样本以确保身份一致性。
5.4.3 评估
图 27 展示输入人脸与生成视频的对比,表现稳定。
在 Pexels 随机选取图像进行测试,并用 ArcFace 计算人脸相似度(1 FPS 采样)。表 8 显示 Wan 个性化模型在多个指标上优于或媲美商业/闭源中文模型,展现强大竞争力。
5.5 摄像机运动可控性
该模块旨在实现对视频中摄像机运动轨迹的精确控制,包括视角与位置变化。
输入参数:每帧包含 外参 [R,t] ∈ R^{3×4[} 和 内参 K_f ∈ R^{3×3}。
1)摄像机姿态编码器:
-
使用 Plücker 坐标将每个像素位置编码为姿态序列 P ∈ R^{6×F×H×W};
-
通过 PixelUnshuffle 降低空间分辨率,提升通道数;
-
使用多层卷积模块提取多级摄像机运动特征,与 DiT 层数对齐。
2)姿态适配器:
-
使用两层零初始化卷积生成缩放因子 γ_i 和偏移量 β_i;
-
注入到每层 DiT,通过如下公式实现与视频潜特征 f_i 融合:
数据与训练:
-
使用 VGGSfM 算法从训练视频中提取真实摄像机轨迹,获取约 O(1) 千段具有显著运动的视频片段;
-
在 T2V 框架中训练该模块,优化器为 Adam;
-
图 29 展示了多个受控摄像机运动的视频生成样例,验证了模块的控制效果。
5.6 实时视频生成
背景与动机:
-
当前视频生成方法需大量计算资源,即使高端硬件也常耗费数分钟生成数秒视频;
-
这严重限制了在 交互娱乐、虚拟现实、直播、视频创作 等实时反馈场景下的实用性与创作效率;
-
Wan 致力于打破该限制,实现高质量、低延迟、可持续的视频生成,支持快速迭代与动态场景响应。
5.6.1 方法
为构建实时生成流程,Wan 基于已有的预训练模型进行两项核心改造:
流式生成机制(Streaming Pipeline):
-
替代一次性固定长度生成方式;
-
引入 “去噪队列” 机制:每次生成新帧加入队尾,旧帧出队,支持无限时长连续生成。
实时加速优化:
-
优化生成速度,使每帧生成速度达到播放要求,满足真正的实时体验;
-
基于预训练模型,不仅提升训练稳定性,还继承了对运动与时间动态的理解,有利于生成连贯内容。
5.6.2 流式视频生成
为解决传统 DiT 模型难以生成长视频的问题,Wan 提出 Streamer 架构,通过 滑动时间窗口 实现高效、持续的视频生成。
核心机制:滑动窗口去噪(Shift Window Denoise)
-
假设:时间依赖性局限在有限窗口内;
-
机制:
-
视频 token 被维护在一个固定长度的队列中;
-
每轮去噪后,队首 token 出队并缓存,新 token 加入队尾;
-
只对当前窗口内的 token 执行注意力计算,大幅降低计算与内存开销;
-
实现 无限长度连续视频生成。
-
训练与推理策略
-
训练阶段:
-
每次采样 2w 个 token(w:窗口大小,等于扩散步数 T);
-
前 w 帧用于 warm-up,不计入损失;
-
后 w 帧参与训练,提升窗口内的生成质量。
-
-
推理阶段:
-
同样先 warm-up,再从第 w+1 帧开始输出;
-
缓存机制:已生成帧以 “0 噪声” 形式重新加入下一窗口,保障跨窗口一致性。
-
方法优势:
-
无限长度视频生成:滑动窗口避免固定长度限制;
-
高效注意力计算:仅计算局部时间依赖,降低资源消耗;
-
连贯性强:缓存与再注入机制实现无缝视频过渡。
5.6.3 一致性模型蒸馏
虽然 Streamer 实现了 无限长度视频生成,但扩散过程仍较慢,不利于实时应用。为此,Wan 引入 一致性模型蒸馏(Consistency Model Distillation)蒸馏机制,极大提升生成速度。
一致性模型集成:
-
使用 Latent Consistency Model (LCM) 与其视频版本 VideoLCM;
-
将原始扩散与 class-free guidance 蒸馏为 仅需 4 步采样 的一致性模型;
-
保留滑动时间窗口机制,兼顾时间一致性与生成效率;
-
最终实现 10–20 倍推理加速,生成速率达到 8–16 FPS,满足实时交互需求(如实时合成、互动仿真等)。
消费级设备部署:量化优化。尽管速度提升显著,但部署仍受限于计算资源(即便是 4090 GPU)。为此,Wan 进一步引入 量化优化策略:
-
int8 量化(Attention + Linear Head):
-
显著减少内存消耗;
-
几乎不影响画质,但提升速度有限。
-
-
TensorRT 量化(整模型优化):
-
实现 单张 4090 也可 8 FPS 实时生成;
-
但可能带来轻微的视觉误差,如闪烁、细节偏差等。
-
-
综合策略:结合 int8 与 TensorRT,权衡速度、质量与稳定性。通过精调量化参数与启用误差检查机制,有效控制失真影响。
整体优势
-
实现高效实时生成:生成质量与时间一致性兼具;
-
支持消费级部署:优化内存与推理速度;
-
面向互动场景:适配游戏、VR、直播等对低延迟要求极高的应用。
5.7 音频生成
Wan 支持 视频到音频(V2A)生成,为视频自动配上环境音与背景音乐(不含语音),要求生成内容与视频节奏、情绪精准同步。同时,支持用户通过文本控制生成风格或指定音效。
5.7.1 模型设计
架构概览:基于 Diffusion Transformer(DiT) 搭建扩散式生成模型,使用 flow-matching 建模去噪过程。
音频编码器:1D-VAE
-
不使用传统 mel-spectrogram 编码(因其打乱时间顺序);
-
采用 直接处理原始波形的 1D-VAE,生成形状为 T_a × C_a 的音频 latent,保持时间同步性。
多模态同步输入
-
视觉编码器:用 CLIP 提取逐帧视觉特征,并通过特征复制与采样率对齐至音频节奏;
-
文本编码器:采用冻结的 umT5 模型,具备多语言理解能力;
-
特征统一投影到 1536 维 latent 空间后进行融合输入 DiT。
数据构建与训练
-
从视频生成数据中筛选出无语音的有效样本,构建约 千小时音视频对齐训练集;
-
采用 Qwen2-audio 生成音频描述(包括环境音 + 音乐风格),配合密集视频字幕,构建三部分统一训练结构:
- 视频描述;
- 环境声音标签;
- 背景音乐分析(风格/节奏/乐器等)。
实现细节
-
音频:最高生成 12 秒立体声、采样率 44.1kHz;
-
视频:下采样为 48 帧对应 12 秒,确保逐帧对齐;
-
文本嵌入维度 4096,视觉特征 1024,统一映射为 DiT 的 1536 维;
-
引入 随机文本掩码策略:训练中随机去除部分文本提示,强制模型仅基于视觉理解生成音频,增强视觉-音频跨模态对齐能力。
5.7.2 音频生成评估
对比分析
-
图 33 展示了 Wan 与开源模型 MMAudio 在音频生成任务中的对比;
-
所有测试视频均来自 Wan 的文本生成视频模型,时长 5 秒。
Wan 的优势
-
时序一致性强:如 “倒咖啡” 场景中声音与画面同步更自然;
-
音质清晰:如 “打字” 案例中,相较 MMAudio 的杂音,Wan 生成更干净;
-
节奏感出色:如“行走”“拳击”“马蹄声”等例子中,Wan 展现出更自然连贯的节奏型音效。
局限性
-
无法生成语音类声音(如说话、笑声、哭声等);
-
原因在于训练数据中有意排除语音内容,而 MMAudio 保留了部分语音相关数据;
-
后续计划引入语音生成机制,扩展音频生成能力。
6. 局限与结论
尽管 Wan 在多个基准任务上取得显著进展(如大幅度运动、指令遵循等),但仍存在以下挑战:
-
细节保持难:面对剧烈运动场景(如舞蹈、运动),生成视频的细节保真度仍需提升;
-
计算开销大:14B 模型在单张 GPU 上推理约需 30 分钟,难以普及,需进一步优化效率与可扩展性;
-
缺乏专业适配性:虽为通用视频模型,但在教育、医疗等垂直领域的表现尚不足,需社区参与推动专业化发展。
结论:
-
本报告发布了 Wan,一个全新的基础级视频生成模型;
-
详细介绍了其 Wan-VAE 与 DiT 架构设计、训练流程、数据构建与评估方法;
-
深入探索了多个下游应用,如图像生成视频、视频编辑、个性化生成,展现出 Wan 的广泛适应性;
-
除开源 14B 大模型外,还发布了 轻量版 1.3B 模型,支持消费级设备运行,显著提升可用性;
-
未来工作将聚焦于扩大数据规模与模型架构,持续提升视频生成质量与效率,推动该领域的创新与应用落地。
论文地址:https://arxiv.org/abs/2503.20314
项目页面:https://github.com/Wan-Video/Wan2.1
进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群