HunyuanVideo LoRA 训练全攻略
一、数据准备规范
素材类型
- 视频片段:10-15秒短视频(25fps)或100+连续帧图像序列。
- 图片素材:10张以上多角度/多动作图像(推荐1024×768分辨率)。
标注要求
- 使用DeepSeek自动生成结构化提示词(含场景/动作/风格描述)。
- 视频标注需包含时间轴标记(如:0:05-0:10 镜头平移)。
二、环境配置要点
# 基础环境
Python 3.10+ | PyTorch 2.5.1+ | CUDA 12.1+
- 推荐硬件配置:NVIDIA RTX 4090 (24G显存) 或 A100 (40G显存)。
- 加速插件安装:
git clone https://github.com/facok/ComfyUI-TeaCacheHunyuanVideo
三、核心参数设置
参数项 | 推荐值 | 说明 | 来源 |
---|---|---|---|
learning_rate | 1e-4 → 3e-5 | 采用余弦退火策略 | |
batch_size | 2 (8G显存) | 每增加8G显存可翻倍 | |
motion_module | 时空DiT层 | 保持动作连贯性 | |
TeaCache档位 | 1.6倍速 | 质量与速度平衡模式 |
四、进阶训练技巧
多阶段训练法
- 第一阶段:冻结文本编码器,仅训练UNet。
- 第二阶段:整体微调(learning_rate降低50%)。
提示词优化
# 标准结构示例
"主体描述, 环境细节, 镜头运动, 风格关键词"
# 示例:"红衣武士挥剑劈砍,竹林背景,慢镜头特写,电影级光影"
五、效果优化方案
物理增强
- 添加流体/碰撞特效样本(如:水花飞溅、布料摆动)。
- 在
negative_prompt
中排除常见缺陷:“畸变肢体|闪烁画面”。
混合训练
- 叠加风格LoRA(如:水墨画风+写实动作)。
- 使用XYZ图表对比不同
rank
值(64/128/256)的生成效果。
六、部署与加速
# TeaCache加速配置
from comfyui_teacache import TeaCacheSampler
sampler = TeaCacheSampler(mode="Faster") # 2.1倍速模式
# 模型加载示例
model = HunyuanVideo.from_pretrained(
"WanX-2.1",
lora_path="custom_lora.safetensors",
cache_optimizer=sampler
)
注:建议开启自动检查点保存(每100步),训练中断时可从最近检查点恢复。