【1分钟学会万相文生视频】windows环境4080显卡部署Wan2.1-T2V-1.3B,亲手实操

=话不多说,看看标题就知道:=

1.先从github上下载源码,或者下载zip解压:

git clone https://github.com/Wan-Video/Wan2.1

2.下载模型

from modelscope import snapshot_download

# 指定模型名称
model_name = "Wan-AI/Wan2.1-T2V-1.3B"

# 指定下载路径(绝对路径)
custom_path = "Wan2.1-T2V-1.3B"

# 下载模型
model_dir = snapshot_download(
     model_name,  # 模型名称
     cache_dir=custom_path,  # 指定下载路径
    revision="master"  # 可选:指定模型版本(默认master)
 )

 print(f"模型已下载到:{model_dir}")

3.按照官方指令进行推理

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

本人做了三个个改动:
1.用–t5_cpu参数会将文本编码器放到CPU上跑,但是在CPU上跑文本编码也是很慢的,因此先在GPU上跑,然后在源码上torch.cuda.empty_cache()清理掉缓存,就快了很多
在这里插入图片描述
2.由于很多机器,比如V100或者2080Ti,或多或少都不支持flash_attention。只需要在源码的model.py将flash_attention替换成from .attention import attention as flash_attention就可以了

# 源码
# from .attention import flash_attention
#替换成
from .attention import attention as flash_attention

3.这个一个意想不到的问题,windows上不支持用号明明文件,如果用源码跑完会保存不了mp4,因此需要将替换掉。如在generate.py文件中将*号替换成X

args.save_file = args.save_file.replace("*", "X")

4.输入prompt,生成对应的视频

prompt:

In a realistic close-up shot with smooth camera movement, a charming woman is seen outdoors on a grassy lawn. She is wearing a white shirt paired with a white jacket, and she adorns a necklace and earrings, adding elegance to her appearance. The woman is gracefully walking around an area enclosed by a wooden fence, moving in a gentle arc as she walks past the fence. The background features a lush green lawn and tent-like structures, creating a serene and refreshing atmosphere. The lighting is ample, highlighting the natural beauty of the scene.

效果视频:
在这里插入图片描述
在这里插入图片描述

<think>嗯,用户问的是在Linux本地部署2.1的详细步骤或教程。首先,我需要回忆一下阿里开源的2.1关信息。根据之前提供的引用[1],里面提到了操作系统要求是Linux,推荐Ubuntu 22.04,还有CUDA版本≥12.1,Python 3.10+,以及PyTorch 2.2+、Diffusers 0.28+、Transformers 4.38+这些核心框架。 用户可能已经知道2.1是什么,但需要具体的部署步骤。所以应该从系统要求开始,确保用户满足前置条件。然后分步骤说明,比如环境准备、依赖安装、模型下载、配置调整、运行示例和常见问题。每个步骤需要具体,比如如何安装CUDA 12.1,如何配置Python虚拟环境,用pip安装哪些包,模型下载的链接或方法,配置文件需要修改哪些参数,如何测试运行等。 另外,用户可能遇到的问题,比如依赖冲突、CUDA版本不匹配、显存不足,这些需要提前考虑到,并在教程中给出解决方法。比如建议使用conda管理环境,或者调整视频生成的参数减少显存占用。 还要注意引用来源,用户提供的引用[1]中提到了部署流程,但可能不够详细,需要补充具体命令和步骤。例如,模型下载可能需要通过git lfs或者阿里云提供的链接,安装命令具体是哪些pip包,可能包括torch、diffusers、transformers等。 用户可能是在公司或个人的Linux服务器上进行部署,可能需要指导如何配置环境变量,设置权限,或者处理网络问题,比如代理设置。但教程中可能不需要深入这些,除非常见问题里提到。 需要确保所有命令正确,比如在安装PyTorch时,正确的pip install命令,可能需要指定版本和CUDA版本。例如:pip install torch==2.2.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html 另外,模型下载可能需要访问Hugging Face或者阿里云特定的仓库,用户可能需要权限或者申请访问,这里需要提醒用户注意。 最后,示例代码部分应该展示如何调用模型生成视频,比如使用Diffusers库的Pipeline,并给出参数说明,如prompt、分辨率、帧数等。同时提醒显存需求,可能需要调整参数以适应不同硬件。 总结下来,步骤应该是: 1. 系统准备:Ubuntu 22.04,NVIDIA驱动,CUDA 12.1 2. 创建Python虚拟环境,安装Python 3.10 3. 安装依赖项:PyTorch、Diffusers、Transformers等 4. 下载2.1模型文件 5. 配置模型路径和参数 6. 编写测试脚本并运行 7. 常见问题处理 需要检查每个步骤是否有遗漏,比如是否要安装git lfs来下载大模型文件,或者是否需要安装额外的依赖如ffmpeg处理视频输出。此外,权限问题,比如模型文件的存放路径是否有读写权限,也可能影响部署。 可能还需要参考官方文档或GitHub仓库的说明,但用户提供的引用信息有限,所以主要基于已知的信息构建步骤,并在可能的问题中建议用户查阅官方资源或社区支持。</think>根据阿里云公开的技术文档和社区实践,以下是Linux本地部署2.1的详细步骤指南: ### 一、部署前置条件 1. **操作系统**:Ubuntu 22.04 LTS(推荐)或兼容的Linux发行版 2. **硬件要求**: - NVIDIA显卡(建议RTX 3090/4090或A100) - 显存≥16GB(视频生成需要) - 内存≥32GB 3. **软件依赖**: - CUDA≥12.1 - cuDNN≥8.9.6 - Python 3.10+ - 必须组件:`git-lfs`, `ffmpeg` ### 二、分步部署流程 #### 步骤1环境准备 ```bash # 安装基础工具 sudo apt update && sudo apt install -y build-essential python3.10-venv ffmpeg git-lfs # 验证CUDA版本(需≥12.1) nvcc --version ``` #### 步骤2:创建虚拟环境 ```bash python3.10 -m venv wanxiang-env source wanxiang-env/bin/activate ``` #### 步骤3:安装核心框架 ```bash pip install torch==2.2.0+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 pip install diffusers==0.28.0 transformers==4.38.0 accelerate xformers ``` #### 步骤4:获取模型权重 ```bash # 通过阿里云ModelScope获取(需申请权限) git clone https://www.modelscope.cn/ali-vilab/wanxiang-2.1.git cd wanxiang-2.1 && git lfs pull ``` #### 步骤5:配置文件调整 修改`configs/base.yaml`: ```yaml compute: fp16: true # 开启半精度推理 device: cuda video: resolution: 1024x576 # 根据显存调整分辨率 ``` #### 步骤6:运行示例 ```python from diffusers import VideoDiffusionPipeline pipe = VideoDiffusionPipeline.from_pretrained("./wanxiang-2.1") video = pipe(prompt="宇航员漫步火星表面", num_frames=24).videos[0] video.save("output.mp4") ``` ### 三、常见问题解决 1. **CUDA版本冲突**: - 使用`conda install cuda -c nvidia/label/cuda-12.1.1`指定版本 2. **显存不足错误**: ```python pipe.enable_model_cpu_offload() # 启用显存优化 ``` 3. **依赖冲突**: ```bash pip install --force-reinstall transformers==4.38.0 # 指定精确版本 ``` ### 四、验证部署 成功运行时将输出类似日志: ``` [INFO] Generated 24 frames in 38.2s (0.63s/frame) [OUTPUT] Saved to output_20240520.mp4 ``` ### 五、进阶配置建议 - 多GPU支持:设置`export CUDA_VISIBLE_DEVICES=0,1` - 视频后处理:使用`ffmpeg -i input.mp4 -vf "scale=1280:720" output.mp4`调整分辨率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值