阿里开源视频生成模型Wan 2.1上线

近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。

在这里插入图片描述

官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。对于普通用户来说,虽然14B 的参数在个人消费级显卡上部署较为困难,但阿里还特别推出了一个1.3B 的小版本,支持480P 分辨率,使用12GB 显存的4070显卡即可流畅运行(本人在Kaggle的 P100 16GB vram 没测试出来)。

除了14B 和1.3B 版本,阿里还发布了两个额外的视频生成模型,均采用 Apache2.0协议,意味着用户可以免费商用。在实际操作中,用户可以通过阿里提供的平台访问这款模型,快速生成视频,但由于用户量激增,有时可能会出现等待时间过长的情况。对于有一定技术基础的用户,还可以通过 HuggingFace 和魔搭社区等多种途径自行安装和调试。

Wan2.1最大的亮点在于其技术创新。该模型采用了 Diffusion Transformer 架构,并使用3D 变分自动编码器,专门为视频生成设计。通过引入多种压缩和并行策略,该模型在保证质量的同时,大幅度提高了生成效率。研究表明,Wan 的重建速度是当前同类技术的2.5倍,大大节省了计算资源。

在用户体验方面,Wan2.1也获得了众多好评。无论是生成动态场景中的细节,还是自然的物理效果,模型的表现都让人眼前一亮。用户们通过该模型不仅能够制作出高质量的视频作品,还能轻松实现文字的动态呈现,为创作带来了更多可能。

快速上手

克隆库:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖:

# Ensure torch >= 2.4.0
pip install -r requirements.txt
模型下载
ModelsDownload LinkNotes
T2V-14B🤗 Huggingface 🤖 ModelScopeSupports both 480P and 720P
I2V-14B-720P🤗 Huggingface 🤖 ModelScopeSupports 720P
I2V-14B-480P🤗 Huggingface 🤖 ModelScopeSupports 480P
T2V-1.3B🤗 Huggingface 🤖 ModelScopeSupports 480P

💡注:1.3B 模型能够生成 720P 分辨率的视频。不过,由于在此分辨率下的训练有限,结果通常不如 480P 稳定。为获得最佳性能,我们建议使用 480P 分辨率。

使用 huggingface-cli 下载模型:

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

使用 modelscope-cli 下载模型:

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B
TaskResolutionModel
480P720P
t2v-14B✔️✔️Wan2.1-T2V-14B
t2v-1.3B✔️Wan2.1-T2V-1.3B

单显卡推理

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM(内存不足)问题、您可以使用 --offload_model True--t5_cpu 选项可减少 GPU 内存使用量。例如,在 RTX 4090 GPU 上:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

注意:如果您使用的是 T2V-1.3B模型,我们建议设置参数--sample_guide_scale 6--sample_shift 参数可根据性能在 8 到 12 的范围内调整。

  • 使用 FSDP + xDiT USP 进行多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Github:https://github.com/Wan-Video/Wan2.1

<think>好的,我需要处理用户关于通义千问2.1版本的查询。首先,用户提供的引用中有引用[3]和[4]涉及通义万相Wan2.1和通义千问-7B,但用户询问的是通义千问2.1版本。这里可能存在版本名称的混淆,因为引用[3]提到的是通义万相Wan2.1,而引用[4]是通义千问-7B。需要确认用户是否混淆了产品名称,还是确实有通义千问2.1版本。 根据现有引用,引用[4]详细介绍了通义千问-7B,但未提及2.1版本。引用[3]提到的是通义万相Wan2.1视频生成模型,属于不同的产品线。可能用户将“通义万相”和“通义千问”混淆了,或者存在其他版本未在引用中说明。 在这种情况下,应该先明确回答已知的信息,指出可能的混淆,并分别介绍通义千问和通义万相的相关版本。同时,根据引用[3]和[4]的内容,整理通义万相Wan2.1的特点,以及通义千问-7B的功能,说明它们的不同应用场景。 需要确保回答结构清晰,分点列出功能特点,并生成相关问题。同时注意使用正确的LaTeX格式,但当前问题不涉及数学公式,所以可能不需要使用。最后,生成的相关问题应围绕通义的不同模型及其应用展开。</think>关于通义千问2.1版本的介绍,目前公开资料中未明确提及“通义千问2.1”这一版本号。根据现有信息,可能涉及混淆或误读。以下是两种可能相关的模型信息整理: --- ### 一、通义千问-7B模型(Qwen-7B) 通义千问是阿里开源的大语言模型,其7B版本(Qwen-7B)核心特点包括[^4]: 1. **大规模训练数据** 使用超过$2.4$万亿tokens的多语言数据,涵盖通用知识、专业领域、代码和数学内容。 2. **高性能表现** 在常识推理、代码生成、数学问题等评测中超越同规模开源模型,部分指标接近更大尺寸模型。 3. **扩展词表设计** 采用约$15$万词表的覆盖,支持多语言能力增强,无需额外扩展词表。 --- ### 二、通义万相Wan2.1视频生成模型 若您实际询问的是**通义万相Wan2.1**(视频生成模型),其技术特点如下[^3]: 1. **创新架构设计** 基于扩散变换器(diffusion transformer)框架,引入**时空变分自动编码器(VAE)**,提升视频生成的连贯性。 2. **高效训练策略** 采用可扩展的训练方法,结合大规模数据构建和自动评估指标,优化模型性能。 3. **多场景应用** 支持创意视频生成、动态特效设计等场景,适用于影视、广告、教育等领域。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值