TGV之LTX:LTX-Video的简介、安装和使用方法、案例应用之详细攻略
目录
TGV之LTX:《LTX-Video: Realtime Video Latent Diffusion》翻译与解读
TGV之LTX:LTX-Video的简介、安装和使用方法、案例应用之详细攻略
相关文章
TGV之LTX:《LTX-Video: Realtime Video Latent Diffusion》翻译与解读
TGV之LTX:《LTX-Video: Realtime Video Latent Diffusion》翻译与解读-CSDN博客
TGV之LTX:LTX-Video的简介、安装和使用方法、案例应用之详细攻略
TGV之LTX:LTX-Video的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
LTX-Video的简介
LTX-Video是第一个基于DiT的实时高质量视频生成模型。它能够以1216×704分辨率生成30 FPS的视频,速度快于观看视频本身。该模型在一个大型多样化视频数据集上进行训练,能够生成具有逼真和多样化内容的高分辨率视频。它支持文本到视频、图像到视频、关键帧动画、视频扩展(向前和向后)、视频到视频转换以及这些功能的任何组合。
总而言之,LTX-Video是一个功能强大且持续改进的实时视频生成模型,它提供了多种功能、模型版本和集成方式,并得到了活跃的社区支持。 其高质量的视频生成能力使其在多个领域具有广泛的应用前景。
GitHub地址:GitHub - Lightricks/LTX-Video: Official repository for LTX-Video
1、LTX-Video的特点
>> 实时生成高质量视频:以1216×704分辨率生成30 FPS的视频,速度快于观看视频。
>> 多功能性:支持文本到视频、图像到视频、关键帧动画、视频扩展(正向和反向)、视频到视频转换以及这些功能的任意组合。
>> 高分辨率和逼真度:能够生成具有逼真和多样化内容的高分辨率视频。
>> 大型数据集训练:基于大型多样化视频数据集进行训练。
>> 持续更新:项目持续更新,不断改进模型质量、速度和功能,例如添加了新的模型版本(例如13B和2B模型,以及它们的不同量化版本),支持更高的分辨率,以及改进提示理解和VAE。
>> 多种模型版本:提供不同大小的模型,例如13B和2B模型,以及它们的量化版本 (例如fp8),以平衡生成质量和资源消耗。其中2B蒸馏模型速度更快,实时生成能力更强。
>> 多种集成:支持与ComfyUI和Diffusers库集成。
>> 社区贡献:鼓励社区贡献,并提供了一些社区开发的工具,例如ComfyUI-LTXTricks,LTX-VideoQ8和TeaCache4LTX-Video,进一步扩展了LTX-Video的功能和性能。
>> 优化策略:引入了诸如TeaCache(一种无训练缓存方法,可加速推理)等技术来提升性能。
2、模型
模型 | 版本 | 笔记 | inference.py 配置 | ComfyUI 工作流程(推荐) |
---|---|---|---|---|
ltxv-13b | 0.9.7 | 最高品质,需要更多 VRAM | ltxv-13b-0.9.7-dev.yaml | ltxv-13b-i2v-base.json |
ltxv-13b-fp8 | 0.9.7 | ltxv-13b 的量化版本 | 即将推出 | ltxv-13b-i2v-base-fp8.json |
ltxv-2b | 0.9.6 | 质量好,VRAM 要求比 ltxv-13b 低 | ltxv-2b-0.9.6-dev.yaml | ltxvideo-i2v.json |
ltxv-2b-蒸馏 | 0.9.6 | 速度快 15 倍,具有实时性,所需步骤更少,无需 STG/CFG | ltxv-2b-0.9.6-distilled.yaml | ltxvideo-i2v-distilled.json |
LTX-Video的安装和使用方法
1、安装
克隆仓库:git clone https://github.com/Lightricks/LTX-Video.git
进入目录:cd LTX-Video
创建虚拟环境:python -m venv env
激活虚拟环境:source env/bin/activate
安装依赖:python -m pip install -e .
使用方法 (使用 inference.py 脚本):
2、使用方法
该项目推荐使用ComfyUI工作流程,但inference.py脚本也提供了基本的使用方法:
脚本代码
文本到视频生成:
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
图像到视频生成:
python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_PATH --conditioning_start_frames 0 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
视频扩展
输入视频片段必须包含8的倍数加1帧(例如9、17、25等),目标帧数也应该是8的倍数。
python inference.py --prompt "PROMPT" --conditioning_media_paths VIDEO_PATH --conditioning_start_frames START_FRAME --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
多条件视频生成
可以基于多个图像或视频片段生成视频。
python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_OR_VIDEO_PATH_1 IMAGE_OR_VIDEO_PATH_2 --conditioning_start_frames TARGET_FRAME_1 TARGET_FRAME_2 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
参数说明
PROMPT为提示词,HEIGHT和WIDTH为分辨率,NUM_FRAMES为帧数,SEED为随机种子。 pipeline_config 指定使用的模型配置文件。
ComfyUI 集成:项目提供了与ComfyUI集成的说明,建议使用ComfyUI以获得更好的结果和更高的输出保真度。 https://github.com/Lightricks/ComfyUI-LTXVideo/
Diffusers 集成:项目也支持与Diffusers库集成,官方文档中提供了更多细节。
3、在线使用
LTX-Video的案例应用
这些例子展示了LTX-Video在生成不同场景、人物和动作方面的能力,也体现了其对细节和氛围的把握。下述描述展现了LTX-Video强大的视频生成能力:
描述一位女子微笑的场景,包括头发颜色、肤色、衣着、妆容和光线等细节。
描述一位女子在夜晚城市街道上走开,然后上楼梯敲门的场景,包括人物动作、环境细节、光线和拍摄角度等。
描述一位女子穿着黑色亮片礼服,带着珍珠耳环,低头悲伤的场景,包括人物表情、服装、灯光和场景氛围等。
描述摄像机拍摄雪山全景的场景,包括山峰、山谷、树木、天空和光线等细节。
描述一位女子穿着蓝色外套和黑色面纱帽子,低头说话的场景,包括人物穿着、表情、发型、背景和拍摄角度等。
描述一位男子在昏暗的房间里使用老式电话,挂断电话后低头悲伤的场景,包括人物动作、服装、表情、灯光和场景氛围等。
描述狱警打开牢房,里面坐着年轻男女的场景,包括人物穿着、表情、环境和拍摄角度等。
描述一位脸上有血迹的女子低头说话的场景,包括人物表情、服装、血迹、灯光和场景氛围等。
描述一位头发花白、留着胡须的男子低头,然后转头看向左边的场景,包括人物外貌、表情、灯光和场景氛围等。
描述清澈碧绿的河流流经岩石峡谷,瀑布和水池的场景,包括河流、峡谷、植被、光线和场景氛围等。
描述一位西装革履的男子进入房间,与两位坐在沙发上的女子说话的场景,包括人物穿着、表情、环境和拍摄角度等。
描述海浪拍打海岸线岩石,浪花飞溅的场景,包括岩石、海水、天空和光线等细节。
描述摄像机横向移动,拍摄高楼林立的城市景观,中间有一个圆形建筑物的场景,包括建筑物、光线和拍摄角度等。
描述一位男子走向窗户,向外看,然后转过身来的场景,包括人物动作、穿着、环境和拍摄角度等。
描述两位穿着深蓝色制服和帽子的警官进入昏暗房间的场景,包括人物动作、穿着、环境和拍摄角度等。
描述一位女子穿过房间说话,然后另一位女子出现在门口大喊的场景,包括人物动作、穿着、表情、环境和拍摄角度等。