TGV之LTX：LTX-Video的简介、安装和使用方法、案例应用之详细攻略

一个处女座的程序猿

已于 2025-05-11 09:57:48 修改

阅读量1.3k

点赞数 28

分类专栏： NLP/LLMs 文章标签： MLM VGM LTX-Video

于 2025-05-11 08:42:46 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/147868169

版权

NLP/LLMs 专栏收录该内容

782 篇文章

订阅专栏

TGV之LTX：LTX-Video的简介、安装和使用方法、案例应用之详细攻略

TGV之LTX：《LTX-Video: Realtime Video Latent Diffusion》翻译与解读

TGV之LTX：LTX-Video的简介、安装和使用方法、案例应用之详细攻略

TGV之LTX：《LTX-Video: Realtime Video Latent Diffusion》翻译与解读

TGV之LTX：《LTX-Video: Realtime Video Latent Diffusion》翻译与解读-CSDN博客

TGV之LTX：LTX-Video的简介、安装和使用方法、案例应用之详细攻略

TGV之LTX：LTX-Video的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

LTX-Video的简介

LTX-Video是第一个基于DiT的实时高质量视频生成模型。它能够以1216×704分辨率生成30 FPS的视频，速度快于观看视频本身。该模型在一个大型多样化视频数据集上进行训练，能够生成具有逼真和多样化内容的高分辨率视频。它支持文本到视频、图像到视频、关键帧动画、视频扩展（向前和向后）、视频到视频转换以及这些功能的任何组合。

总而言之，LTX-Video是一个功能强大且持续改进的实时视频生成模型，它提供了多种功能、模型版本和集成方式，并得到了活跃的社区支持。其高质量的视频生成能力使其在多个领域具有广泛的应用前景。

GitHub地址：GitHub - Lightricks/LTX-Video: Official repository for LTX-Video

1、LTX-Video的特点

>> 实时生成高质量视频：以1216×704分辨率生成30 FPS的视频，速度快于观看视频。

>> 多功能性：支持文本到视频、图像到视频、关键帧动画、视频扩展（正向和反向）、视频到视频转换以及这些功能的任意组合。

>> 高分辨率和逼真度：能够生成具有逼真和多样化内容的高分辨率视频。

>> 大型数据集训练：基于大型多样化视频数据集进行训练。

>> 持续更新：项目持续更新，不断改进模型质量、速度和功能，例如添加了新的模型版本（例如13B和2B模型，以及它们的不同量化版本），支持更高的分辨率，以及改进提示理解和VAE。

>> 多种模型版本：提供不同大小的模型，例如13B和2B模型，以及它们的量化版本 (例如fp8)，以平衡生成质量和资源消耗。其中2B蒸馏模型速度更快，实时生成能力更强。

>> 多种集成：支持与ComfyUI和Diffusers库集成。

>> 社区贡献：鼓励社区贡献，并提供了一些社区开发的工具，例如ComfyUI-LTXTricks，LTX-VideoQ8和TeaCache4LTX-Video，进一步扩展了LTX-Video的功能和性能。

>> 优化策略：引入了诸如TeaCache（一种无训练缓存方法，可加速推理）等技术来提升性能。

2、模型

模型	版本	笔记	inference.py 配置	ComfyUI 工作流程（推荐）
ltxv-13b	0.9.7	最高品质，需要更多 VRAM	ltxv-13b-0.9.7-dev.yaml	ltxv-13b-i2v-base.json
ltxv-13b-fp8	0.9.7	ltxv-13b 的量化版本	即将推出	ltxv-13b-i2v-base-fp8.json
ltxv-2b	0.9.6	质量好，VRAM 要求比 ltxv-13b 低	ltxv-2b-0.9.6-dev.yaml	ltxvideo-i2v.json
ltxv-2b-蒸馏	0.9.6	速度快 15 倍，具有实时性，所需步骤更少，无需 STG/CFG	ltxv-2b-0.9.6-distilled.yaml	ltxvideo-i2v-distilled.json

LTX-Video的安装和使用方法

1、安装

克隆仓库：git clone https://github.com/Lightricks/LTX-Video.git

进入目录：cd LTX-Video

创建虚拟环境：python -m venv env

激活虚拟环境：source env/bin/activate

安装依赖：python -m pip install -e .

使用方法 (使用 inference.py 脚本):

2、使用方法

该项目推荐使用ComfyUI工作流程，但inference.py脚本也提供了基本的使用方法：

脚本代码

文本到视频生成:

python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

图像到视频生成:

python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_PATH --conditioning_start_frames 0 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

视频扩展

输入视频片段必须包含8的倍数加1帧（例如9、17、25等），目标帧数也应该是8的倍数。

python inference.py --prompt "PROMPT" --conditioning_media_paths VIDEO_PATH --conditioning_start_frames START_FRAME --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

多条件视频生成

可以基于多个图像或视频片段生成视频。

python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_OR_VIDEO_PATH_1 IMAGE_OR_VIDEO_PATH_2 --conditioning_start_frames TARGET_FRAME_1 TARGET_FRAME_2 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml