（2025|阿里，DiT，时空 VAE，多模态（文本，图像，视频，音频）生成）Wan：开放且先进的大规模视频生成模型

自动编码器（VAE）：将视频压缩至潜空间，常见如标准 VAE（Kingma, 2013）、VQ-VAE（Van Den Oord, 2017）、VQGAN（Esser et al., 2021）等，近期 LTX-Video（HaCohen et al., 2024）更进一步提升重建质量；
文本编码器：多数使用 T5（Raffel et al., 2020）或结合 CLIP（Radford et al., 2021），如 HunyuanVideo 使用多模态大语言模型增强文本-视觉对齐；
扩散神经网络：多采用 3D U-Net 结构（VDM），或 1D 时间 + 2D 空间注意力结构（Zhou et al., 2022），最新架构则采用Diffusion Transformer（DiT）结构（Peebles & Xie, 2023），以 Transformer 替代 U-Net，在视觉任务中表现优越。

在此基础上，多个开源视频模型如 Mochi、HunyuanVideo、LTX-Video、CogVideoX 等相继发布。Wan 模型在此基础上精心选择与优化各核心组件，力求在生成质量上实现突破。

此外，开源社区也积极探索下游任务，包括图像补全、视频编辑、可控生成与参考帧生成等，常通过适配器结构或ControlNet增强用户控制能力。

Wan 不仅整合上述核心技术，还在多个下游任务上进行了系统设计与评估，推动生成模型从“能生成”向“能控制、高质量、可泛化”迈进。

3. 数据处理流程

高质量的大规模训练数据是生成模型性能的基石。Wan 构建了完整自动化的数据构建流程，以 “高质量、高多样性、大规模” 为核心原则，整理了数十亿级图像与视频数据。

数据分为 预训练（pre-training）数据、后训练（post-training）数据 和 视频密集描述（Dense Video Caption）三个阶段进行处理。

3.1 预训练数据

预训练阶段的数据来自内部版权素材与公开数据，通过以下四步筛选：

1）基础属性筛选：通过多维度过滤提升基础数据质量：

文本检测：使用轻量 OCR 过滤文字遮挡严重视频/图像；
美学评分：采用 LAION-5B 的打分器剔除低美感数据；
NSFW 评分：内部安全模型评估并移除违规内容；
水印 / LOGO / 黑边检测：裁剪干扰区域；
曝光异常检测：移除光感异常内容；
模糊与伪图检测：利用模型打分移除失焦和合成图（污染率 <10% 即可显著影响性能）；
时长 / 分辨率限制：视频需大于 4 秒，且低分辨率视频按阶段剔除。

该流程去除约 50% 原始数据，为后续高语义挑选做准备。

2）视觉质量筛选：

数据首先聚类为 100 类，防止长尾数据缺失后影响分布，
再按每类选样本进行人工打分（1~5分），训练质量评估模型自动评分，选出高评分样本。

3）运动质量筛选：运动质量划分六档：

最优运动：运动幅度、视角、透视感良好，动作清晰流畅；
中等运动：运动明显但有遮挡或多主体；
静态视频：主要为访谈等高质量但动作少的视频，降低采样比例；
相机驱动运动：相机移动为主，主体静止，如航拍，采样比例较低；
低质量运动：场景混乱或遮挡严重，直接剔除；
抖动镜头：非稳定镜头导致的模糊失真，系统性剔除。

4）视觉文本数据构建：为提升视觉文本生成能力，结合两类数据来源：

合成路径：将中文字渲染在白底图上，构造数亿样本；
真实路径：从真实图像中提取中英文文本，结合 Qwen2-VL 生成详细描述。
该策略帮助模型学会生成稀有字词，显著增强视觉文字生成质量。

3.2 后训练数据

后训练阶段旨在提升模型生成视频的 清晰度与运动效果，分别对图像与视频数据采用不同处理策略。

图像数据：从评分较高图像中，采用专家模型选出前 20% 并手动补充关键概念，确保多样性与覆盖度，构成百万级高质量图像集。
视频数据：从视觉质量与运动质量双重评分中选取若干百万级视频，涵盖 “技术、动物、艺术、人类、交通” 等 12 大类，以强化泛化能力。

3.3 视频密集描述

为增强模型对指令的理解能力，Wan 构建了大规模密集视频描述数据集，涵盖图像与视频描述、动作识别、OCR 等多个维度，数据来源包括：

3.3.1 开源数据集

整合多种视觉问答、图像/视频描述数据集及纯文本指令数据，支持多维度理解与生成。

3.3.2 自建数据集

围绕若干核心能力设计：

名人/地标识别：通过 LLM 与 CLIP 筛选高质量图像；
物体计数：结合 LLM 与 Grounding DINO 进行一致性过滤；
OCR 增强：提取文本后再由模型生成描述；
相机角度与运动识别：人工标注+专家模型辅助增强控制能力；
细粒度类别识别：覆盖动物、植物、交通工具等；
关系理解：聚焦 “上下左右” 空间位置；
再描述：将短标注扩展为完整描述；
编辑指令生成：配对两图，生成描述差异的指令；
多图描述：先描述公共属性，再描述各自差异；
人工标注数据：最终训练阶段使用最高质量的图像 / 视频密集标注。

3.3.3 模型设计

（2023|NIPS，LLaVA，指令遵循，预训练和指令微调，Vicuna，ViT-L/14，LLaVABench）视觉指令微调

（2024|CVPR，LLaVA-1.5，LLaVA-1.5-HD，CLIP-ViT-L-336px，MLP 投影，高分辨率输入，组合能力，模型幻觉）通过视觉指令微调改进基线

（2024，LLaVA-NeXT（LLaVA-1.6），动态高分辨率，数据混合，主干扩展）

Wan 的描述生成模型采用 LLaVA 风格架构，结合视觉与语言多模态输入，设计要点如下：

视觉编码器：使用 ViT（Vision Transformer）提取图像和视频帧的视觉特征；
投影网络：视觉特征通过两层感知机投射至语言模型输入空间；
语言模型：使用 Qwen LLM（QwenTeam, 2024）作为生成器；

输入结构：

图像输入采用动态高分辨率切分为最多 7 块（patch），每块特征下采样为 12×12；
视频输入按每秒 3 帧采样，最多 129 帧；

Slow-Fast 编码机制：

每 4 帧保留原始分辨率；
其他帧采用全局平均池化；
显著提升长视频理解能力（如在 VideoMME 提升从 67.6% → 69.1%）。

该架构兼顾精度与效率，适配图像、视频、多图等不同输入类型。

3.3.4 模型评估

为自动化评估 Wan 的视频描述能力，团队设计了多维度评测流程，参考 CAPability（Liu et al., 2025b）方法：

评估维度（共10项）：

动作（Action）
摄像机角度（Camera Angle）
摄像机运动（Camera Motion）
对象类别（Category）
对象颜色（Color）
计数能力（Counting）
OCR（视觉文字）
场景类型（Scene）
风格（Style）
事件（Event）

评估流程：

随机抽取 1000 个视频样本；
分别由 Wan 的模型与 Google Gemini 1.5 Pro 生成描述；
使用 CAPability 自动评分，计算每个维度的 F1 值。

结果分析：

Wan 明显优于 Gemini 在：事件、摄像角度、摄像运动、风格、颜色；
Gemini 在 OCR、类别识别、动作理解等方面略占优势；
两者整体性能相近，Wan 在生成控制性与视频结构理解上表现更佳。

4. 模型设计与加速

Wan 模型基于 Diffusion Transformer（DiT）架构设计，包含自研时空变分自编码器 Wan-VAE、Diffusion Transformer 主干、文本编码器 umT5，以及一系列推理加速与内存优化机制。

4.1 时空变分自编码器

4.1.1 模型设计

为压缩高维度视频数据并保持时序一致性，Wan 设计了 3D 因果结构的 Wan-VAE，具备以下特点：

输入视频 V ∈ R^{(1+T) × H × W × 3} 经压缩得到潜变量 x ∈ R^{(1+T/4) × H/8 × W/8 × C}，其中通道数 C = 16；
第一帧仅做空间压缩，参考 MagViT-v2；
所有 GroupNorm 替换为 RMSNorm 以保持时间因果性；
解码端特征通道减半，减少推理内存 33%。

Wan-VAE 参数量为 127M，显著小于同类模型。

4.1.2 训练

采用三阶段训练策略：

训练 2D VAE；
将其膨胀为 3D 结构，在低分辨率小帧数视频上训练；
微调至高分辨率、多帧数视频，加入 3D 判别器 GAN loss。

损失函数包括：

L1 重建损失；
KL 散度；
LPIPS 感知损失
加权系数：3，3e-6 ，3

4.1.3 高效推理

为支持长视频推理，引入 chunk-based 特征缓存机制：

每个 chunk 对应一组潜变量，缓存前一 chunk 的特征以实现上下文连续；
默认设置下使用 2 帧缓存，支持因果卷积；
对于 2× 时间下采样场景，采用 1 帧缓存与零填充。

该机制可推理任意长度视频，且在显存使用上优于传统方法。

4.1.4 评估

量化评估 对比显示：

Wan-VAE 在 PSNR（视频质量）和每帧延迟（效率）上优于 HunYuanVideo、CogVideoX、Mochi 等；
在同一硬件环境下，速度提升约 2.5×。

质量评估 显示：在纹理、人脸、文本与高运动场景下，Wan-VAE 保留更多细节、减少失真。

4.2 模型训练

Wan 主干采用 DiT 架构，包含：

Wan-VAE（视频编码）；
Diffusion Transformer；
文本编码器 umT5（多语言支持强，收敛快）；

视频经 VAE 编码为潜变量，后由 DiT 生成。

（2023|ICCV，DiT，扩散 transformer，Gflops）使用 Transformer 的可扩展扩散模型

4.2.1 视频 DiT

Transformer 模块采用以下设计：

3D Patchify（卷积核为 1×2×2），展开为序列；
每层 Transformer 块包含自注意力、交叉注意力（文本）、时间步嵌入；
时间步嵌入通过 MLP 生成六组调节参数；
所有 Transformer 层共享该 MLP，节省约 25% 参数量。

4.2.2 预训练策略

采用 Flow Matching 框架建模视频生成流程：

给定视频潜变量 x_1、噪声 x_0 ∼ N(0,I) 与时间步 t ∈ [0,1]，中间状态为：

模型预测速度向量：

损失函数为：

训练阶段包括：

低分辨率图像预训练（256px），构建跨模态对齐能力；
图像-视频联合训练，按分辨率逐步升高（192px → 480px → 720px）；
使用 bf16 精度与 AdamW 优化器，初始学习率 1e-4，动态衰减。

4.2.3 后训练

沿用预训练配置，在高质量后训练数据上继续训练，进一步提升视觉细节与运动建模。

4.3 模型扩展与训练效率

Wan 针对大模型训练的高资源消耗问题，设计了一系列优化策略，包括工作负载分析、并行策略、显存优化及集群稳定性保障。

4.3.1 工作负载分析

在 Wan 的训练中，Diffusion Transformer（DiT）占据超过 85% 的计算资源，而文本编码器与 VAE 编码器计算量较小，且在训练阶段被冻结，仅推理使用。

DiT 的计算开销 由以下表达式近似：

其中：

L：DiT 层数；
b：micro-batch 大小；
s：序列长度（token 数）；
h：隐藏维度；
α：线性层复杂度；
β：注意力层复杂度（Wan 中前向为 4，反向为 8）；

与 LLM 不同，Wan 中的视频序列长度 s 可达百万级，注意力计算成为训练瓶颈。在序列长度为 1M 时，注意力计算时间可达训练总时间的 95%。

内存占用 近似为： γLbsh，其中 γ 为实现（implementation）相关系数（LLM 中约为 34，Wan 中可超 60），当 batch size = 1，14B 参数的 DiT 激活内存需求可达 8 TB。

4.3.2 并行策略

Wan 的三大模块（VAE、Text Encoder、DiT）采用不同的并行方式：

VAE：内存占用小，使用数据并行（Data Parallel，DP）；
Text Encoder：显存需求高（>20GB），采用权重切分（FSDP）；
DiT：采用多维并行策略

DiT 的并行策略：为应对巨量激活内存与计算成本，采用以下组合：

FSDP（Fully Sharded Data Parallel）：参数、梯度、优化器状态均切分；
上下文并行（Context Parallel，CP）：沿序列长度 s 分片，包含：
- Ulysses（内层）；
- Ring Attention（外层），实现跨节点通信重叠；
数据并行（DP）：进一步扩展 batch size。

如图 11，128 GPU 配置下：

Ulysses = 8，Ring = 2，CP = 16；
FSDP = 32；
DP = 4；
全局 batch size = 8b。

此混合策略结合通信效率与内存分布优势。

模块切换机制：

由于 VAE 与 Text Encoder 使用 DP，DiT 使用 CP，为避免冗余计算，在切换到 CP 前使用广播策略共享必要数据。
该方法将 VAE/Text Encoder 推理时间缩短为原来的 1/CP，从而提升整体效率。

4.3.3 显存优化

Wan 在长序列场景中优先使用 激活迁移（Activation Offloading），替代传统的 梯度检查点（Gradient Checkpointing，GC）：

激活迁移允许将激活缓存转移到 CPU，同时与计算重叠；
PCIe 传输时间通常只占 1~3 层 DiT 的计算时间，适合重叠；
CPU 内存易耗尽时，结合 GC 策略使用。

该策略有效降低了显存压力，特别适用于 720p 长视频训练。

4.3.4 集群稳定性

依托阿里云训练平台，Wan 使用以下机制保障超大规模训练稳定性：

启动前检测机器健康状况，避免分配异常节点；
训练中实时隔离故障节点，自动修复并恢复任务；
智能调度提升资源利用率；
以上机制确保了训练作业在长周期内的高稳定性与可扩展性。

4.4 推理

Wan 在推理阶段针对长序列、多步采样的特点，设计了高效的并行化策略与缓存机制，并结合量化技术，显著降低延迟与内存需求。

4.4.1 并行策略

推理过程涉及约 50 步扩散采样，需优化每步生成的延迟。Wan 结合训练期相同的策略：

模型切分（FSDP）：在长序列推理中通信开销较小，支持参数分片；
2D 上下文并行（2D-CP）：如训练中所述，外层为 Ring Attention，内层为 Ulysses，适配长序列；
线性加速：如图 12 所示，Wan 14B 在多个 GPU 上接近线性加速。

4.4.2 扩散缓存

推理过程中存在以下可利用特性：

注意力相似性：同一 DiT 层中，多个采样步之间注意力输出差异小；
CFG 相似性：在采样后期，带条件与无条件生成结果接近。

Wan 借助这些现象构建 Diffusion Cache 机制：

Attention Cache：每隔若干步执行一次注意力前向，并缓存其结果，其他步复用；
CFG Cache：后期跳过无条件路径，仅对条件路径前向，结果通过残差补偿恢复细节；
结果：在不降低质量的前提下，14B 模型推理效率提升 1.62 倍。

该机制参考了 DiTFastAttn（Yuan et al., 2024b）与 FasterCache（Lv et al., 2024）等近期研究。

4.4.3 量化

为进一步加速推理，Wan 采用两类量化技术：

1）FP8 GEMM 运算

所有 GEMM 运算均使用 FP8 精度；
权重按张量（per-tensor）量化，激活按 token（per-token）量化；
实验显示损失极小，且 DiT 模块加速 1.13×，GEMM 性能提升 2×。

2）FlashAttention3 的 8-bit 优化

虽然 FlashAttention3 原生 FP8 实现存在精度损失，Wan 通过如下优化提升效果：

混合 8-bit 优化：Q、K、V 使用 INT8 表示内积 S = QK^T，而 O = PV 用 FP8；
跨块 FP32 累积：使用 FP32 寄存器对跨块结果做高精度累加，借鉴 DeepSeek-V3 的策略。

为了兼顾数值精度与 kernel 性能，Wan 还引入以下优化：

FP32 累积融合流水线（Float32 Accumulation + Intra-Warpgroup Pipelining）：
- FlashAttention3 原生通过 intra-warpgroup pipeline 并行 Softmax、Scaling 与 WGMMA；
- Wan 在此基础上将 FP32 累积策略融合进流水线中，实现高精度无额外延迟。

4.5 提示对齐

为提升文本驱动的生成一致性，Wan 在训练过程中增强了提示对齐能力：

注意力设计：采用 Cross-Attention 将文本信息注入视频生成过程，使模型能更好地理解描述意图；
语言建模：使用 umT5 文本编码器提供高质量跨语言、多粒度语义嵌入；
训练数据辅助：借助高质量视频密集描述数据集（第 3.3 节），显著增强模型对提示内容的理解与跟随能力。

同时，针对稀有概念（如特殊角色或复杂动作），Wan 在训练中动态采样包含此类信息的数据，提升稀有提示的响应能力。

通过上述设计，Wan 在多个任务上均能展现优异的文本控制力，包括图像生成视频（I2V）、个性化生成、视频编辑等。

4.6 基准评测

现有的视频生成评估指标，如 Fréchet Video Distance（FVD）和 Fréchet Inception Distance（FID），在与人类感知的一致性方面存在明显不足。为此，本文提出了一套 自动化、全面且符合人类偏好 的新评估体系：Wan-Bench，用于衡量视频生成模型的综合表现。

Wan-Bench 从三个核心维度出发：动态质量（Dynamic Quality）、图像质量（Image Quality）、指令跟随能力（Instruction Following），共包含 14 个细粒度指标，并针对每个维度设计了特定的评分算法，结合传统检测器与多模态大模型（MLLM）实现自动评估。

1）动态质量：该维度评估模型在非静态场景下的表现，包括以下方面：

大幅度动作生成：通过特定 prompt 激发大运动，使用 RAFT 计算视频光流并归一化，评估动作幅度。
人类伪迹检测（Human Artifacts）：训练基于 YOLOv3 的检测器，对 20,000 张 AI 生成图像标注伪迹，综合置信度、边界框与持续时间得出评分。
物理合理性与流畅度：
- 使用物理相关 prompt（如球弹跳、流体）；
- 基于 Qwen2-VL 模型问答判断是否存在违反物理规律（如穿模、悬浮）；
- 复杂动作流畅度由 Qwen2-VL 识别伪迹并评分。
像素级稳定性：在静态区域计算帧间差异，差异越小表明稳定性越高。
身份一致性：包括人类、一致动物、目标物体等，使用 Frame-level DINO 特征提取，衡量帧间相似度。

2）图像质量：该维度评估每帧图像的视觉效果与美学属性：

综合图像质量：
- 清晰度评估使用 MANIQA 检测模糊与伪迹；
- 美学评估结合 LAION 美学预测器与 MUSIQ；
- 三者得分取平均作为最终图像质量分数。
场景生成质量：
- 帧间一致性：使用 CLIP 计算连续帧相似度；
- 语义一致性：使用 CLIP 计算帧图与文本之间相似度；
- 综合加权得出评分。
风格化能力：使用 Qwen2-VL 回答图像风格相关问题，评估艺术生成能力。

3）指令跟随能力：该维度评估模型对文本指令的理解与执行效果：

目标与位置关系：
- Qwen2-VL 预测对象类别、数量与相对空间位置；
- 统计满足条件的帧比例，作为最终得分。
相机控制：
- 涉及 5 种机位动作：横移、升降、缩放、航拍、跟拍；
- 对于横移、升降、缩放使用 RAFT 光流分析；
- 航拍、跟拍使用 Qwen2-VL 视频问答评估。
动作执行：
- 涵盖人类（如奔跑）、动物（如爬行）、物体（如飞行）等动作；
- 提取关键帧，Qwen2-VL 回答该动作是否执行、是否完成、是否存在伪迹，综合得分。

4）用户反馈引导的权重策略：不同维度对人类偏好的影响不同，因此 Wan-Bench 引入了基于用户反馈的加权评分机制：

收集了超过 5,000 对视频样本的人工对比评价；
用户基于相同 prompt 比较两个视频，并赋予偏好与分数；
使用 Pearson 相关系数 计算模型打分与人类偏好之间的相关性；
将此相关性作为权重，用于最终 Wan-Bench 综合得分的加权平均。
这一策略使得 Wan-Bench 不仅能自动评估模型性能，更能够模拟人类主观感知，更贴近实际使用场景中的评价标准。

4.7 模型评估

4.7.1 指标与结果

基准模型与评估指标：目前已有众多具代表性的文本生成视频（T2V）模型可供对比，涵盖商用闭源与开源系统：

闭源模型：Kling（快手，2024.06）、Hailuo（海螺，MiniMax，2024.09）、Sora（OpenAI，2024）、Runway（2024.06）、Vidu（声树AI，2024.07）；
开源模型：Mochi（GenmoTeam，2024）、CogVideoX（Yang et al., 2025b）、HunyuanVideo（Kong et al., 2024）等。

定量评估结果：

评估样本：为每个模型收集 1,035 个统一 Prompt 条件下的生成样本；
评估维度：分别从三项核心指标进行评分：
- 动态质量（Dynamic Quality）
- 图像质量（Image Quality）
- 指令跟随能力（Instruction Following Accuracy）；
评分方式：使用 Wan-Bench 全自动评估框架，按 第 4.6 节定义的人类偏好加权规则 计算总分。

评估结果见表 2，Wan 在这三大指标上均领先主流商业模型与开源系统，说明其在实际视频生成任务中具有全面的优势表现。

定性结果分析：图 15 展示了 Wan 模型的多种文本驱动生成示例，展示其优异的生成能力：

大规模复杂动作合成：可稳定生成包含多个物体、多视角、剧烈运动的场景；
物理交互场景建模：物体间的碰撞、反弹、水流等动作自然流畅；
风格化与美学表现：兼容多种艺术风格，具有电影级画面美感；
多语言文本生成能力：可将中英文文字嵌入视频，并呈现出高度一致的视觉文字效果，支持字幕类动画生成。

人类评价结果：

设计了 超过 700 个评测任务；
由 20+ 名标注人员完成人工打分，维度包括：
- Prompt 对齐（Alignment）
- 图像质量（Image Quality）
- 动态质量（Dynamic Quality）
- 整体质量（Overall Quality）；

表 3 结果显示：Wan-14B 模型在所有维度上均表现优异，T2V 任务中领先于其他模型，体现其在人类感知层面的生成优势。

公共榜单表现（Wan in Public Leaderboard）：Wan 还在开放视频生成评测榜单 VBench（Huang et al., 2023） 上展现出 SOTA（State-of-the-Art）性能：

VBench 由多个维度组成（共 16 项），覆盖审美质量、运动流畅性、语义一致性等方面；
Wan 参评版本包括：
- Wan-14B
- Wan-1.3B；

表 4 显示：

Wan-14B 在该榜单中总得分 86.22%；
其中视觉质量得分为 86.67%，语义一致性得分为 84.44%；
位列当前所有参评模型首位。

4.7.2 消融实验

1）自适应归一化层的消融实验：基于 DiT 中的 AdaLN（Adaptive LayerNorm）进行实验，主要探讨两种策略的优劣：

增大 AdaLN 参数量（即不共享参数）
增加网络深度（保持参数量不变）

借鉴 PixArt 的做法，设计了以下四种模型配置：

Full-shared-AdaLN-1.3B：30 层注意力模块，所有层共享 AdaLN（参数最少）
Half-shared-AdaLN-1.5B：前 15 层共享，后 15 层不共享，参数增至 1.5B
Full-shared-AdaLN-1.5B (extended)：仍共享 AdaLN，但将层数扩展至 35 层，参数 1.5B
Non-shared-AdaLN-1.7B：不共享AdaLN，保持30层，参数最多（1.7B）

所有模型在 Text-to-Image 任务中训练 200k 步，并对比 latent 空间中的 L2 训练损失。实验结果显示：

Full-shared-AdaLN-1.5B（增加层数）性能优于 Non-shared-AdaLN-1.7B（增加参数）
说明 增加深度比增加参数更有效

最终，选用参数共享的 AdaLN 设计，兼顾性能与效率。

2）文本编码器的消融实验：对比三种支持中英双语的文本编码器：

umT5 (5.3B)
Qwen2.5-7B-Instruct
GLM-4-9B

训练配置保持一致，均在 text-to-image 任务中训练，并分析其训练损失曲线（如图 17）。结果表明：

umT5 表现最佳，训练损失最低。
其优势源自采用 双向注意力机制，更适合扩散模型（对比 Qwen 和 GLM 的单向因果注意力）。
后续还对比了 Qwen-VL-7B-Instruct，使用其第二层输出时，效果接近 umT5，但模型体积更大。

3）自动编码器消融：设计了一个变体 VAE-D，将传统的重建损失替换为 扩散损失。在 text-to-image 任务中分别训练 VAE 和 VAE-D 模型，训练步数为 150k，结果如下：

结果表明，VAE 的 FID 更低，即生成质量更好。因此主模型继续采用原始的 VAE 结构。

5. 扩展应用

5.1 图像到视频生成

5.1.1 模型设计

Wan 在图像生成视频（I2V）任务中引入图像作为首帧控制生成过程：

输入构建：将条件图像与零帧拼接后，经 Wan-VAE 编码为潜变量 z_c，并引入掩码 M 标记保留与生成帧。
模型结构：将噪声潜变量、条件潜变量与掩码拼接输入 DiT 模型；由于通道数增加，使用额外投影层适配。
图像语义注入：利用 CLIP 图像编码器提取特征，经 MLP 投影后通过交叉注意力注入模型，提供全局语义信息。

多任务统一框架：该方法适用于图像生成视频、视频续接、首尾帧变换等任务，统一以掩码机制控制输入与输出。

训练策略：

联合预训练阶段：使用与文本生成视频（T2V）相同的数据集，使模型具备基本的图像驱动生成能力。
微调阶段：为每个任务准备专门的数据集，提升任务特定性能。

5.1.2 数据集

图像生成视频（I2V）：为确保首帧与视频内容一致性，计算首帧与剩余帧的 SigLIP 特征余弦相似度，仅保留相似度高的视频样本。

视频续接：选择时间连续性强的视频，基于视频开头 1.5 秒和结尾 3.5 秒的 SigLIP 特征相似度进行筛选。

首尾帧转换：更关注首帧与尾帧之间的平滑过渡，优先保留具有明显变化的样本以增强过渡效果。

5.1.3 评估

实验设置：基于480p 和 720p 两个预训练模型，分别微调 I2V、视频续接与首尾帧转换任务。

评估方式：参考 T2V 评估，比较视觉质量、运动质量和内容匹配度，并与 SOTA 方法对比。

结果（表 7）显示 Wan 在各项指标上均表现优越。

5.2 统一视频编辑

Wan 提出一个统一的视频编辑框架，支持多种编辑任务，如文本引导编辑、风格迁移、画面插入/删除等。

5.2.1 模型设计

输入形式：包含原始视频、编辑目标（如文本指令或图像条件）及掩码信息。

条件编码：视频帧和掩码通过 Wan-VAE 编码为上下文token，与噪声视频token结合输入模型。

概念解耦：

与 I2V 模型类似，采用掩码标记保留与需要生成的帧或区域，实现灵活编辑。
二者均通过 Wan-VAE 编码并对齐到统一潜空间，确保清晰的编辑任务分工与收敛稳定。

上下文适配调优（Context Adapter Tuning）：

引入 Context Blocks 处理上下文 token，然后注入 DiT 主干模型，无需修改原始模型参数，实现灵活编辑扩展。

参考图像处理：参考图像单独编码，并拼接进时间维中，解码时去除对应部分，防止与视频混淆。

5.2.2 数据集与实现

数据构建：为训练统一视频编辑模型，构建涵盖多模态输入的数据集，包括目标视频、源视频、局部掩码、参考图像等。

数据处理流程：

视频先进行镜头切分与初筛（基于分辨率、美学得分、运动幅度）。
首帧通过 RAM 与 Grounding DINO 做实例检测，筛除目标过小或过大的样本。
使用 SAM2 进行视频级实例分割，并依据掩码面积筛选高质量连续帧。

针对不同编辑任务采用差异化数据构建策略，确保数据多样性与任务适应性。

实现细节：模型基于 Wan-T2V-14B 微调，最高支持 720p。

训练流程分三阶段：

在修复、延展等基础任务上训练，强化时空上下文理解；
扩展至多参考帧与组合任务；
进一步精调，提升质量与时序一致性。

5.2.3 评估

结果：Wan 单一模型在多个编辑任务中均表现出色，具备优良的视频质量和时间一致性。

扩展能力（图 24 (a)）：展示了模型跨任务组合能力，例如风格迁移+内容插入等复合编辑。

通用性（图 24 (b)）：VACE 框架同样适用于图像生成与编辑，验证了其广泛适配性。

5.3 文本生成图像

联合训练策略：Wan 同时在图像和视频数据上进行训练，不仅具备强大的视频生成能力，也展现出卓越的图像合成效果。

数据比例：图像数据集规模约为视频的 10 倍，有效促进了图像与视频任务之间的跨模态知识迁移。

图像生成表现：

支持多样化风格与内容；
可生成包括艺术文字图像、写实人像、创意设计、产品摄影等在内的高质量图像。

效果展示：图 25 展示了多种图像类别下 Wan 的高保真生成结果。

5.4 视频个性化

目标是生成与用户提供参考图像身份一致的视频内容。Wan 集成了先进的视频个性化技术，取得领先性能。

5.4.1 模型设计

主要挑战：

获取高保真身份信息；
将身份特征无缝融入生成流程。

核心策略：

不依赖 ArcFace 或 CLIP 等提取器，避免信息丢失；
直接使用 Wan-VAE 的潜空间输入人脸图像作为个性化条件；
采用 自注意力机制 注入身份信息，比交叉注意力更适配潜空间建模。

具体流程：

将提取的人脸图像扩展为前 K 帧；
在通道维拼接人脸图像与对应的掩码（前 K 帧为全 1，后续帧为全 0）；
使用扩展视频作为输入进行扩散过程，实现 “修复式” 个性化生成；
支持 0~K 张参考图生成，通过训练时随机丢弃部分人脸帧实现泛化。

5.4.2 数据集

从 Wan-T2V 的训练集中过滤构建个性化子集（约 O(10)M 视频）：

筛选标准包括单人脸、面部检测覆盖率、帧间一致性（ArcFace 相似度）、人脸分割与对齐。
不排除小尺寸人脸，保留全身人像样本。

通过 自动合成 增强多样性：

利用 Instant-ID 对 O(1)M 视频生成风格多样的人脸；
随机组合姿态 + 文本模板（如动漫、电影、Minecraft 风格等）生成合成样本；
保留 ArcFace 相似度高的样本以确保身份一致性。

5.4.3 评估

图 27 展示输入人脸与生成视频的对比，表现稳定。

在 Pexels 随机选取图像进行测试，并用 ArcFace 计算人脸相似度（1 FPS 采样）。表 8 显示 Wan 个性化模型在多个指标上优于或媲美商业/闭源中文模型，展现强大竞争力。

5.5 摄像机运动可控性

该模块旨在实现对视频中摄像机运动轨迹的精确控制，包括视角与位置变化。

输入参数：每帧包含外参 [R,t] ∈ R^{3×4[} 和内参 K_f ∈ R^{3×3}。

1）摄像机姿态编码器：

使用 Plücker 坐标将每个像素位置编码为姿态序列 P ∈ R^{6×F×H×W}；
通过 PixelUnshuffle 降低空间分辨率，提升通道数；
使用多层卷积模块提取多级摄像机运动特征，与 DiT 层数对齐。

2）姿态适配器：

使用两层零初始化卷积生成缩放因子 γ_i 和偏移量 β_i；
注入到每层 DiT，通过如下公式实现与视频潜特征 f_i 融合：

数据与训练：

使用 VGGSfM 算法从训练视频中提取真实摄像机轨迹，获取约 O(1) 千段具有显著运动的视频片段；
在 T2V 框架中训练该模块，优化器为 Adam；
图 29 展示了多个受控摄像机运动的视频生成样例，验证了模块的控制效果。

5.6 实时视频生成

背景与动机：

当前视频生成方法需大量计算资源，即使高端硬件也常耗费数分钟生成数秒视频；
这严重限制了在 交互娱乐、虚拟现实、直播、视频创作 等实时反馈场景下的实用性与创作效率；
Wan 致力于打破该限制，实现高质量、低延迟、可持续的视频生成，支持快速迭代与动态场景响应。

5.6.1 方法

为构建实时生成流程，Wan 基于已有的预训练模型进行两项核心改造：

流式生成机制（Streaming Pipeline）：

替代一次性固定长度生成方式；
引入 “去噪队列” 机制：每次生成新帧加入队尾，旧帧出队，支持无限时长连续生成。

实时加速优化：

优化生成速度，使每帧生成速度达到播放要求，满足真正的实时体验；
基于预训练模型，不仅提升训练稳定性，还继承了对运动与时间动态的理解，有利于生成连贯内容。

5.6.2 流式视频生成

为解决传统 DiT 模型难以生成长视频的问题，Wan 提出 Streamer 架构，通过 滑动时间窗口 实现高效、持续的视频生成。

核心机制：滑动窗口去噪（Shift Window Denoise）

假设：时间依赖性局限在有限窗口内；
机制：
- 视频 token 被维护在一个固定长度的队列中；
- 每轮去噪后，队首 token 出队并缓存，新 token 加入队尾；
- 只对当前窗口内的 token 执行注意力计算，大幅降低计算与内存开销；
- 实现 无限长度连续视频生成。

训练与推理策略

训练阶段：
- 每次采样 2w 个 token（w：窗口大小，等于扩散步数 T）；
- 前 w 帧用于 warm-up，不计入损失；
- 后 w 帧参与训练，提升窗口内的生成质量。
推理阶段：
- 同样先 warm-up，再从第 w+1 帧开始输出；
- 缓存机制：已生成帧以 “0 噪声” 形式重新加入下一窗口，保障跨窗口一致性。

方法优势：

无限长度视频生成：滑动窗口避免固定长度限制；
高效注意力计算：仅计算局部时间依赖，降低资源消耗；
连贯性强：缓存与再注入机制实现无缝视频过渡。

5.6.3 一致性模型蒸馏

虽然 Streamer 实现了 无限长度视频生成，但扩散过程仍较慢，不利于实时应用。为此，Wan 引入 一致性模型蒸馏（Consistency Model Distillation）蒸馏机制，极大提升生成速度。

一致性模型集成：

使用 Latent Consistency Model (LCM) 与其视频版本 VideoLCM；
将原始扩散与 class-free guidance 蒸馏为 仅需 4 步采样 的一致性模型；
保留滑动时间窗口机制，兼顾时间一致性与生成效率；
最终实现 10–20 倍推理加速，生成速率达到 8–16 FPS，满足实时交互需求（如实时合成、互动仿真等）。

消费级设备部署：量化优化。尽管速度提升显著，但部署仍受限于计算资源（即便是 4090 GPU）。为此，Wan 进一步引入 量化优化策略：

int8 量化（Attention + Linear Head）：
- 显著减少内存消耗；
- 几乎不影响画质，但提升速度有限。
TensorRT 量化（整模型优化）：
- 实现 单张 4090 也可 8 FPS 实时生成；
- 但可能带来轻微的视觉误差，如闪烁、细节偏差等。
综合策略：结合 int8 与 TensorRT，权衡速度、质量与稳定性。通过精调量化参数与启用误差检查机制，有效控制失真影响。