(2025|阿里,DiT,时空 VAE,多模态(文本,图像,视频,音频)生成)Wan:开放且先进的大规模视频生成模型

Wan: Open and Advanced Large-Scale Video Generative Models

目录

1. 引言

2. 相关工作

3. 数据处理流程

3.1 预训练数据

3.2 后训练数据

3.3 视频密集描述

3.3.1 开源数据集

3.3.2 自建数据集

3.3.3 模型设计

3.3.4 模型评估

4. 模型设计与加速

4.1 时空变分自编码器

4.1.1 模型设计 

4.1.2 训练

4.1.3 高效推理

4.1.4 评估

4.2 模型训练

4.2.1 视频 DiT

4.2.2 预训练策略

4.2.3 后训练

4.3 模型扩展与训练效率

4.3.1 工作负载分析

4.3.2 并行策略

4.3.3 显存优化

4.3.4 集群稳定性

4.4 推理

4.4.1 并行策略

4.4.2 扩散缓存

4.4.3 量化

4.5 提示对齐

4.6 基准评测

4.7 模型评估

4.7.1 指标与结果

4.7.2 消融实验

5. 扩展应用

5.1 图像到视频生成

5.1.1 模型设计

5.1.2 数据集

5.1.3 评估

5.2 统一视频编辑

5.2.1 模型设计

5.2.2 数据集与实现

5.2.3 评估

5.3 文本生成图像

5.4 视频个性化

5.4.1 模型设计

5.4.2 数据集

5.4.3 评估

5.5 摄像机运动可控性

5.6 实时视频生成

5.6.1 方法

5.6.2 流式视频生成

5.6.3 一致性模型蒸馏

5.7 音频生成

5.7.1 模型设计

5.7.2 音频生成评估

6. 局限与结论


1. 引言

当前开源模型存在三大问题:性能与闭源模型差距大、应用场景有限、效率较低,限制了社区的发展。

本文提出了视频基础模型系列 Wan,旨在推动开放视频生成模型的边界。

  • Wan 基于 Diffusion Transformer(DiT)和 Flow Matching 框架,设计高效架构,
  • 通过创新的时空(spatio-temporal)变分自编码器(VAE)提升文本可控性与动态建模能力
  • 模型使用超过万亿 tokens 的图像与视频训练,在运动幅度、质量、风格多样性、文本生成、摄像机控制等方面均展现强大能力

Wan 提供两个版本:适配消费级显卡的 1.3B 参数模型和能力强大的 14B 参数模型,支持包括图像生成视频、指令引导视频编辑和个性化视频生成在内的 8 项下游任务,是首个能生成中英视觉文本的模型。此外,Wan 1.3B 仅需 8.19GB 显存,显著降低部署门槛。

2. 相关工作

随着生成建模技术的发展,视频生成模型尤其是在扩散模型框架下取得了显著进展。相关工作主要可分为两个方向:闭源模型和开源社区贡献。

闭源模型方面,大厂主导的发展进度快速,目标是生成具备专业质量的视频。代表性模型包括:

  • OpenAI Sora(2024 年 2 月),标志性成果,极大推动视频生成质量;

  • Kling(快手)Luma 1.0(Luma AI)(2024 年 6 月);

  • Runway Gen-3(2024 年 6 月)在 Gen-2 基础上优化;

  • Vidu(声树 AI,2024 年 7 月)采用自研 U-ViT 架构;

  • MiniMax Hailuo Video(2024 年 9 月)和 Pika 1.5(Pika Labs,2024 年 10 月)

  • Meta Movie Gen Google Veo 2(2024 年 12 月)进一步增强物理理解与人类动态感知能力。

  • 这些闭源模型借助强大算力与数据资源在生成质量、真实感、细节控制等方面具有优势。

开源社区方面,虽然起步略晚,但发展迅速,取得重要突破。现有视频扩散模型多数基于 Stable Diffusion 架构,由三个关键模块构成:

  • 自动编码器(VAE):将视频压缩至潜空间,常见如标准 VAE(Kingma, 2013)、VQ-VAE(Van Den Oord, 2017)、VQGAN(Esser et al., 2021)等,近期 LTX-Video(HaCohen et al., 2024)更进一步提升重建质量;

  • 文本编码器:多数使用 T5(Raffel et al., 2020)或结合 CLIP(Radford et al., 2021),如 HunyuanVideo 使用多模态大语言模型增强文本-视觉对齐;

  • 扩散神经网络:多采用 3D U-Net 结构(VDM),或 1D 时间 + 2D 空间注意力结构(Zhou et al., 2022),最新架构则采用Diffusion Transformer(DiT)结构(Peebles & Xie, 2023),以 Transformer 替代 U-Net,在视觉任务中表现优越。

在此基础上,多个开源视频模型如 Mochi、HunyuanVideo、LTX-Video、CogVideoX 等相继发布。Wan 模型在此基础上精心选择与优化各核心组件,力求在生成质量上实现突破。

此外,开源社区也积极探索下游任务,包括图像补全、视频编辑、可控生成与参考帧生成等,常通过适配器结构或ControlNet增强用户控制能力。

Wan 不仅整合上述核心技术,还在多个下游任务上进行了系统设计与评估,推动生成模型从“能生成”向“能控制、高质量、可泛化”迈进。

3. 数据处理流程

高质量的大规模训练数据是生成模型性能的基石。Wan 构建了完整自动化的数据构建流程,以 “高质量、高多样性、大规模” 为核心原则,整理了数十亿级图像与视频数据。

数据分为 预训练(pre-training)数据后训练(post-training)数据 视频密集描述(Dense Video Caption)三个阶段进行处理。

3.1 预训练数据

预训练阶段的数据来自内部版权素材与公开数据,通过以下四步筛选:

1)基础属性筛选:通过多维度过滤提升基础数据质量:

  • 文本检测:使用轻量 OCR 过滤文字遮挡严重视频/图像;

  • 美学评分:采用 LAION-5B 的打分器剔除低美感数据;

  • NSFW 评分:内部安全模型评估并移除违规内容;

  • 水印 / LOGO / 黑边检测:裁剪干扰区域;

  • 曝光异常检测:移除光感异常内容;

  • 模糊与伪图检测:利用模型打分移除失焦和合成图(污染率 <10% 即可显著影响性能);

  • 时长 / 分辨率限制:视频需大于 4 秒,且低分辨率视频按阶段剔除。

该流程去除约 50% 原始数据,为后续高语义挑选做准备。

2)视觉质量筛选:

  • 数据首先聚类为 100 类,防止长尾数据缺失后影响分布,
  • 再按每类选样本进行人工打分(1~5分),训练质量评估模型自动评分,选出高评分样本。

3)运动质量筛选:运动质量划分六档:

  • 最优运动:运动幅度、视角、透视感良好,动作清晰流畅;

  • 中等运动:运动明显但有遮挡或多主体;

  • 静态视频:主要为访谈等高质量但动作少的视频,降低采样比例;

  • 相机驱动运动:相机移动为主,主体静止,如航拍,采样比例较低;

  • 低质量运动:场景混乱或遮挡严重,直接剔除;

  • 抖动镜头:非稳定镜头导致的模糊失真,系统性剔除。

4)视觉文本数据构建:为提升视觉文本生成能力,结合两类数据来源:

  • 合成路径:将中文字渲染在白底图上,构造数亿样本;

  • 真实路径:从真实图像中提取中英文文本,结合 Qwen2-VL 生成详细描述。

  • 该策略帮助模型学会生成稀有字词,显著增强视觉文字生成质量。

3.2 后训练数据

后训练阶段旨在提升模型生成视频的 清晰度与运动效果,分别对图像与视频数据采用不同处理策略。

  • 图像数据:从评分较高图像中,采用专家模型选出前 20% 并手动补充关键概念,确保多样性与覆盖度,构成百万级高质量图像集。

  • 视频数据:从视觉质量与运动质量双重评分中选取若干百万级视频,涵盖 “技术、动物、艺术、人类、交通” 等 12 大类,以强化泛化能力。

3.3 视频密集描述

为增强模型对指令的理解能力,Wan 构建了大规模密集视频描述数据集,涵盖图像与视频描述、动作识别、OCR 等多个维度,数据来源包括:

3.3.1 开源数据集

整合多种视觉问答、图像/视频描述数据集及纯文本指令数据,支持多维度理解与生成。

3.3.2 自建数据集

围绕若干核心能力设计:

  • 名人/地标识别:通过 LLM 与 CLIP 筛选高质量图像;

  • 物体计数:结合 LLM 与 Grounding DINO 进行一致性过滤;

  • OCR 增强:提取文本后再由模型生成描述;

  • 相机角度与运动识别:人工标注+专家模型辅助增强控制能力;

  • 细粒度类别识别:覆盖动物、植物、交通工具等;

  • 关系理解:聚焦 “上下左右” 空间位置;

  • 再描述:将短标注扩展为完整描述;

  • 编辑指令生成:配对两图,生成描述差异的指令;

  • 多图描述:先描述公共属性,再描述各自差异;

  • 人工标注数据:最终训练阶段使用最高质量的图像 / 视频密集标注。

3.3.3 模型设计

(2023|NIPS,LLaVA,指令遵循,预训练和指令微调,Vicuna,ViT-L/14,LLaVABench)视觉指令微调

(2024|CVPR,LLaVA-1.5,LLaVA-1.5-HD,CLIP-ViT-L-336px,MLP 投影,高分辨率输入,组合能力,模型幻觉)通过视觉指令微调改进基线

(2024,LLaVA-NeXT(LLaVA-1.6),动态高分辨率,数据混合,主干扩展)

Wan 的描述生成模型采用 LLaVA 风格架构,结合视觉与语言多模态输入,设计要点如下:

  • 视觉编码器:使用 ViT(Vision Transformer)提取图像和视频帧的视觉特征;

  • 投影网络:视觉特征通过两层感知机投射至语言模型输入空间;

  • 语言模型:使用 Qwen LLM(QwenTeam, 2024)作为生成器;

输入结构

  • 图像输入采用动态高分辨率切分为最多 7 块(patch),每块特征下采样为 12×12;

  • 视频输入按每秒 3 帧采样,最多 129 帧;

Slow-Fast 编码机制

  • 每 4 帧保留原始分辨率;

  • 其他帧采用全局平均池化;

  • 显著提升长视频理解能力(如在 VideoMME 提升从 67.6% → 69.1%)。

该架构兼顾精度与效率,适配图像、视频、多图等不同输入类型。

3.3.4 模型评估

为自动化评估 Wan 的视频描述能力,团队设计了多维度评测流程,参考 CAPability(Liu et al., 2025b)方法:

评估维度(共10项):

  • 动作(Action)

  • 摄像机角度(Camera Angle)

  • 摄像机运动(Camera Motion)

  • 对象类别(Category)

  • 对象颜色(Color)

  • 计数能力(Counting)

  • OCR(视觉文字)

  • 场景类型(Scene)

  • 风格(Style)

  • 事件(Event)

评估流程

  • 随机抽取 1000 个视频样本;

  • 分别由 Wan 的模型与 Google Gemini 1.5 Pro 生成描述;

  • 使用 CAPability 自动评分,计算每个维度的 F1 值。

结果分析

  • Wan 明显优于 Gemini 在:事件、摄像角度、摄像运动、风格、颜色;

  • Gemini 在 OCR、类别识别、动作理解等方面略占优势;

  • 两者整体性能相近,Wan 在生成控制性与视频结构理解上表现更佳。

4. 模型设计与加速

Wan 模型基于 Diffusion Transformer(DiT)架构设计,包含自研时空变分自编码器 Wan-VAE、Diffusion Transformer 主干、文本编码器 umT5,以及一系列推理加速与内存优化机制。

4.1 时空变分自编码器

4.1.1 模型设计 

为压缩高维度视频数据并保持时序一致性,Wan 设计了 3D 因果结构的 Wan-VAE,具备以下特点:

  • 输入视频 V ∈ R^{(1+T) × H × W × 3} 经压缩得到潜变量 x ∈ R^{(1+T/4) × H/8 × W/8 × C},其中通道数 C = 16;

  • 第一帧仅做空间压缩,参考 MagViT-v2;

  • 所有 GroupNorm 替换为 RMSNorm 以保持时间因果性;

  • 解码端特征通道减半,减少推理内存 33%。

Wan-VAE 参数量为 127M,显著小于同类模型。

4.1.2 训练

采用三阶段训练策略:

  • 训练 2D VAE;

  • 将其膨胀为 3D 结构,在低分辨率小帧数视频上训练;

  • 微调至高分辨率、多帧数视频,加入 3D 判别器 GAN loss。

损失函数包括:

  • L1 重建损失;

  • KL 散度;

  • LPIPS 感知损失

  • 加权系数:3,3e-6 ,3

4.1.3 高效推理

为支持长视频推理,引入 chunk-based 特征缓存机制:

  • 每个 chunk 对应一组潜变量,缓存前一 chunk 的特征以实现上下文连续;

  • 默认设置下使用 2 帧缓存,支持因果卷积;

  • 对于 2× 时间下采样场景,采用 1 帧缓存与零填充。

该机制可推理任意长度视频,且在显存使用上优于传统方法。

4.1.4 评估

量化评估 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值