🔧 一、环境准备
-
硬件要求
- 显存:≥24GB(推荐RTX 4090/5000 Ada等高端显卡)
- 内存:≥64GB DDR5
- 存储:≥100GB SSD空间(模型文件约8-15GB)
-
软件依赖
- Python 3.10+(必须严格匹配版本)
- CUDA 12.1+ & cuDNN(需与NVIDIA驱动兼容)
- Git:用于克隆代码库
⬇️ 二、下载步骤
1. 获取代码库
git clone https://github.com/Stability-AI/generative-models.git
cd generative-models
2. 配置Python环境
conda create -n svd_xt python=3.10 -y
conda activate svd_xt
pip install -r requirements/pt2.txt # 安装核心依赖
pip install . # 安装sgm库
3. 下载SVD-XT模型
- 官方模型地址:
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt - 操作步骤:
- 注册Hugging Face账号并登录
- 下载全部文件(包含
config.json
,diffusion_pytorch_model.safetensors
等) - 将文件放入本地目录:
generative-models/checkpoints/
4. 下载辅助模型(可选)
- CLIP视觉编码器:
→ 存放至wget https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/model.safetensors
~/.cache/huggingface/hub/
- ViT-L/14模型:
→ 存放至wget https://openaipublic.azureedge.net/clip/models/b8cca3fd41ae0c99ba7e8951adf17d267cdb84cd88be6f7c2e0eca1737a03836/ViT-L-14.pt
~/.cache/clip/
⚙️ 三、运行验证
- 启动Streamlit交互界面
streamlit run scripts/demo/video_sampling.py --server.port 7860
-
界面操作
- 选择模型:
Stable Video Diffusion XT
- 上传参考图片(如官方示例图)
- 调整参数:
Frames
:生成帧数(建议≤25帧防爆显存)Resolution
:576×1024(默认)
- 点击 Sample 生成视频
- 选择模型:
-
生成结果
- 输出路径:
generative-models/outputs/demo/vid/svd_xt/
- 视频格式:
.mp4
(25FPS)
- 输出路径:
💡 四、高效替代方案(2025更新)
若需更快生成速度,可下载社区优化模型:
- AnimateLCM-SVD-xt:
- 仅需4步推理生成25帧视频(提速12倍)
- 下载地址:https://top.aibase.com/tool/animatelcm-svd-xt
- 替换原模型至
checkpoints
目录即可使用
⚠️ 五、注意事项
-
显存不足处理:
- 减少生成帧数(如14帧)
- 启用
--enable_deepcache
(缓存优化) - 添加
--use_fp16
(半精度计算)
-
常见错误解决:
- 模型加载失败 → 检查
.safetensors
文件完整性 - TypeError: randn_like() → 确保已上传参考图片
- CUDA内存不足 → 降低分辨率至480p或批量大小=1
- 模型加载失败 → 检查
-
网络问题:
- 使用国内镜像加速Hugging Face下载(如阿里云代理)
- 若无法访问,尝试社区分流链接(需谨慎验证安全性)
以上流程基于Stability AI官方开源代码和2025年社区最佳实践整理。若需商业用途,请遵守Hugging Face模型协议。最新优化版本(如光流插值/8K超分)建议关注GitHub仓库更新。