（保姆级教程）Windows系统本地部署通义万相2.1视频生成模型

程序员非鱼

已于 2025-03-03 11:04:58 修改

阅读量4.2k

点赞数 31

分类专栏：本地部署模型文章标签： windows 深度学习人工智能 python 视频生成万相大模型

于 2025-03-02 20:19:17 首次发布

本文链接：https://blog.csdn.net/qq_44475666/article/details/145969212

版权

本地部署模型专栏收录该内容

2 篇文章

订阅专栏

文章目录

在线体验
本地安装
测试万相
结果展示
可能出现的问题
- 参数问题
依赖包问题
参考链接

2025年2月25日，阿里云旗下视频生成模型万相2.1宣布开源，提供1.3B和14B两个参数规格的全部推理代码和权重代码，可以用来文生视频和图生视频。接下来我们就一起来本地部署万相模型。

在线体验

在本地部署之前我们可以先在万相官网在线体验视频生成。点击左侧导航栏中的视频生成可以体验生成视频，同时还可以体验生成图像等功能。

本地安装

万相模型公布在Github在线仓库上，地址为https://github.com/Wan-Video/Wan2.1，可以先访问该链接去查看相关代码。

所需环境

在下载万相源码和权重之前我们本地需要先进行配置，通常情况下我们会为新项目创建一个python运行环境，这里我们使用Anaconda来创建虚拟环境(可以点击链接下载安装)，然后输入以下命令创建虚拟环境。

# 创建虚拟环境 your_name为你的环境名
conda create -n your_name python=3.10
# 进入刚刚创建好的环境
conda activate your_name

所需配置

这里说明一下，万相此次开源了1.3B和14B两个版本，两个模型所需要的显卡配置也不同，这里给出对比图，大家可以根据需要选择自己要安装的版本。

	1.3B	14B
参数规模	13亿参数，轻量化设计	140亿参数，模型复杂度高
生成质量	480P分辨率，物理规律模拟能力接近闭源模型	支持720P分辨率，复杂运动（如旋转、碰撞）表现更逼真。
硬件需求	消费级显卡可运行（如RTX4090），仅需8G显存及以上的显卡即可运行。	需专业级显卡（如A100/H100），显存占用较高，需40G显存以上的显卡集群。
推理速度	5秒视频生成需5分钟左右（RTX4090）	5秒视频需要10分钟（高分辨率）（需高性能CPU）
应用场景	学术研究、二次模型调优、个人创作者	专业影视制作、广告特效开发

克隆仓库

使用以下命令将代码仓库从线上克隆到本地。

git clone https://github.com/Wan-Video/Wan2.1
# 克隆之后cd到文件夹下
cd Wan2.1

安装依赖

将项目克隆到本地之后，使用前面我们创建好的虚拟环境，开始下载项目运行所需依赖包。

conda activate your_name

PyTorch和CUDA安装

通常情况下，我习惯于单独安装PyTorch和CUDA，这样可以直接挑选所需版本进行安装，这里去PyTorch官网选择合适的版本进行安装，这里推荐选择PyTorch2.6和CUDA12.4版本进行安装（选择其他版本的PyTorch和CUDA一定要在安装之后进行检查，确认安装成功后即可），安装命令如下。

# 进入项目运行环境 
conda activate your_name
# 下载PyTorch和CUDA
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0+cu124 --index-url https://download.pytorch.org/whl/cu124

安装整体依赖

在我们克隆项目之后，会在当前文件夹下出现requirements.txt文件，该文件下是项目运行所需依赖，可以看到这里是所需依赖包的版本号，但是并没有给出具体版本，在安装的时候我们还是要指定具体的版本号，这样避免出现问题，因为前面我们已经安装了PyTorch，所以前两个依赖包给注释掉，另外tokenizers包和flash-attn单独安装，使用下列命令进行安装。

将requirements.txt文件修改后上图右侧之后就可以输入下列命令安装相关依赖了

pip install -r requirements.txt
# 安装tokenizers
pip install tokenizers

flash-attn安装

上面我们有说到flash_attn包单独安装，是因为这个依赖包原本是为Linux系统适配的，由于我们是本地Windows安装，所以我们需要找第三方依赖包来安装flash_attn，这里提供第三方包的下载网址，点击之后选择自己所需要的依赖包下载到本地，然后输入以下命令进行安装（由于网络原因，如果不能下载的话，可以去公主号“非鱼AI视界”后台回复flash获得文件）。

pip install D:\your_path\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

下载模型

当以上操作都完成之后，我们就要下载所需要的模型了，由于我本地电脑只有16G显存，所以这里我下载1.3B版本的进行操作。按照官网上的说明，先下载huggingface-cli工具，然后再下载相关模型，命令如下：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-1.3B

也可以使用modelscope-cli工具进行下载，命令如下：

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-1.3B

测试万相

这里我们按照官网上提供的示例进行测试模型的输出：

两只拟人化的猫穿着舒适的拳击装备，戴着明亮的手套，在聚光灯下的舞台上激烈战斗

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." --save_file your_path\test.mp4