阿里云最新视频生成模型Wan2.1,超越Sora,登顶Vbench榜首!

近日,阿里云通义实验室正式开源了他们最新、最强大的视频生成大模型Wan2.1,一经发布便引发了广泛关注。此次开源的Wan2.1模型不仅在多个领域中表现优异,还在Vbench榜单上超越Sora等国际顶级视频生成模型,稳居榜首!今天,我们就来一起深入了解这个模型的核心亮点和技术创新。

图片

Wan2.1视频生成模型概览

Wan2.1是阿里云推出的一款全新的开源视频生成大模型,它包括两种主要版本——14B版1.3B版。这个模型支持多个任务,包括文生视频(Text-to-Video)图生视频(Image-to-Video)视频编辑(Video Editing)文生图(Text-to-Image)视频生音频(Video-to-Audio),可以为创作者提供强大的视频生成能力。

Wan2.1的亮点

  1. SOTA性能:在Vbench等权威评测平台上,Wan2.1的表现远超现有开源模型及一些顶级闭源模型。无论是在复杂运动生成、物理建模、还是文字视频生成等方面,都展现出了卓越的能力。

  2. 支持消费级显卡:值得一提的是,T2V-1.3B版本的模型仅需8.19GB显存,即可在消费级显卡上运行,生成480P视频,表现媲美一些闭源大模型。

  3. 多任务支持:Wan2.1支持多种生成任务,包括文生视频、图生视频、视频编辑、文生图和视频生音频,极大地拓展了其应用场景。

  4. 视觉文字生成:Wan2.1是首个支持中英文动态文字生成的视频模型,可以为视频生成添加精美的中文和英文文字特效,提升视频创作的丰富性和吸引力。

  5. 强大的VAE(变分自编码器):Wan2.1的Wan-VAE视频VAE架构在编码和解码1080P视频时表现出色,能够高效处理任何长度的视频,极大地保证了视频生成的质量和效率。

Wan2.1的技术创新

Wan2.1能够在视频生成领域取得如此成就,离不开其背后的一系列技术创新。以下是Wan2.1的几项核心技术突破:

3D因果VAE(变分自编码器)

Wan2.1团队自研了专为视频生成设计的3D因果VAE架构,这个架构在传统VAE的基础上进行了重大改进,解决了视频生成中的时空压缩和内存使用问题。具体来说,Wan-VAE能够有效压缩空间和时间信息,同时确保时间因果性。这意味着,即使是长时间的视频,模型也能精准保留视频的历史时序信息,从而避免了传统VAE在长视频生成时常见的时间偏差问题。

该架构在性能上的优势显著,能在高分辨率下生成高清视频,且能够处理无限长度的视频,极大地提升了视频生成的灵活性和应用场景。

图片

视频扩散Transformer(DiT)

视频扩散Transformer(DiT)是Wan2.1的核心生成架构之一。Wan2.1基于扩散Transformer(DiT)范式,结合了Flow Matching框架,能够在长时程的视频生成过程中确保时空一致性和生成质量。每个Transformer模块使用交叉注意力机制(Cross-Attention),将文本信息深度融入到模型的结构中,从而实现高质量的视频生成。

此外,Wan2.1采用了一种共享MLP的设计,使得在同一参数规模下,模型的计算效率大幅提升,避免了模型规模过大带来的计算瓶颈。

图片

训练与推理效率优化

为了加快大模型的训练和推理速度,Wan2.1采用了创新的分布式训练与推理策略:

  • 训练加速:在训练阶段,Wan2.1采用了DP(数据并行)FSDP(Fully Sharded Data Parallel)的组合策略,并结合上下文并行(CP)来进一步加速训练过程,确保模型的高效训练。

  • 推理加速:在推理阶段,Wan2.1通过上下文并行(CP)技术在多卡环境下进行推理,减少了生成单个视频的延迟。对于大模型,如14B版,则采用了模型切分技术,使得大规模生成任务可以并行处理,进一步提高了推理效率。

    图片

数据清洗与构建

Wan2.1的强大表现离不开其庞大的训练数据集。为了确保数据的质量,Wan2.1团队设计了严格的数据清洗流程,涵盖了图像质量运动质量基础维度等方面,确保训练数据的多样性和高质量。通过这一数据处理管道,Wan2.1能够高效获取高质量、具有多样性的训练数据集,为生成更真实的视频内容打下坚实基础。

图片

性能分析

通过与Sora等主流开源模型的对比,Wan2.1在多个视频生成任务中展现出了更加细腻的生成效果。无论是在复杂运动生成物理模拟,还是指令遵循方面,Wan2.1都远超其他模型,截止到目前,Wan2.1在vbench榜单中仍处在榜首位置。

图片

无论是小型的本地设备还是高性能的多卡系统,Wan2.1都能够平稳运行,且支持灵活的GPU配置,使其能够适应不同的开发和研究环境。这一性能使得该模型特别适合学术研究和中小型创作团队。

图片

模型下载

OpenCSG社区:https://opencsg.com/models/Wan-AI/Wan2.1-T2V-1.3B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值