源超长视频生成模型:FramePack

FramePack 是一种下一帧(下一帧部分)预测神经网络结构,可以逐步生成视频。

FramePack 将输入上下文压缩为固定长度,使得生成工作量与视频长度无关。即使在笔记本电脑的 GPU 上,FramePack 也能处理大量帧,甚至使用 13B 模型。

FramePack 可以使用更大的批量大小进行训练,类似于图像扩散训练的批量大小。

使用 13B 模型生成 1 分钟视频(60 秒)以 30fps(1800 帧),所需的最低 GPU 内存为 6GB。

关于速度,在 RTX 4090 台式机上,它以 2.5 秒/帧(未优化)或 1.5 秒/帧(teacache)的速度生成。在笔记本电脑上,比如 3070ti 笔记本电脑或 3060 笔记本电脑,它大约慢 4 倍到 8 倍。

操作UI如下:

图片

快速理解 FramePack:

下一个帧(或下一个帧部分)预测模型看起来是这样的:

图片

所以我们有很多输入帧,并希望扩散一些新帧。

我们可以将输入帧编码成类似这样的 GPU 布局:

图片

此图表显示了逻辑 GPU 内存布局 - 图像帧并未拼接。

或者,比如说每个输入帧的上下文长度。

每个帧都使用不同的 patchifying 内核进行编码以实现这一点。

例如,在 HunyuanVideo 中,如果使用(1, 2, 2)补丁化内核,480p 帧可能是 1536 个 token。

然后,如果改为(2, 4, 4)补丁化内核,帧将是 192 个 token。

这样,我们可以改变每个帧的上下文长度。

"更重要"的帧会分配更多的 GPU 资源(上下文长度)- 在这个例子中,F0 是最重要的,因为它是最接近"下一帧预测"目标的帧。

这是对流处理的 O(1)计算复杂度 - 是的,这是一个常数,甚至不是 O(nlogn)或 O(n)。

实际上这些是 FramePack 调度,就像这样:

图片

因此可以获取不同的压缩模式。

甚至可以让起始帧同样重要,这样图像到视频的转换会更加愉快

所有这些调度都是 O(1)的。

抗漂移采样:

漂移是任何下一何-何预测模型的常见问题,漂移指的是随着视频变长而出现的质量退化,有时这个问题也被称作误差累积或曝光偏差。

图片

(阴影方框是每次流推理中生成的帧)

注意,只有“vanilla sampling”是因果的;“anti-drifting sampling”和“inverted anti-drifting sampling”都是双向的。

“倒置反漂移采样”非常重要。这种方法是唯一一种在所有推理中始终将第一帧作为近似目标的。这种方法非常适合图像到视频。

图像到 5 秒(30fps,150 帧)视频生成:

图片

图像转 60 秒(30fps,1800 帧)视频生成:

图片

项目地址:https://github.com/lllyasviel/FramePack

模型地址:https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

<think>好的,我现在需要帮助用户找到FramePack的本地安装教程或指南。首先,根据用户提供的引用,特别是引用[2]中的内容,里面提到了克隆GitHub仓库、安装依赖等步骤,这应该就是安装指南的一部分。用户可能已经看过这些信息,但需要更详细的指导。 接下来,我需要检查用户提到的其他引用是否有相关的内容。引用[3]和[4]是关于ComfyUI的安装,可能和FramePack无关,但需要注意是否有共同点,比如使用镜像或依赖安装。不过用户的问题集中在FramePack,所以主要关注引用[1]和[2]。 用户可能需要具体的步骤,比如如何克隆仓库,安装哪些依赖,如何处理可能出现的错误。例如,引用[2]中提到安装PyTorch时需要指定CUDA版本,这很重要,因为用户可能有不同的CUDA环境,需要调整命令。另外,安装Flash Attention加速库可能也是一个步骤,但引用中没有详细说明,可能需要补充。 还要考虑用户的环境,比如操作系统是否支持,是否需要预先安装Python、Git等工具。引用[4]提到镜像设置,可以建议用户使用国内加快下载速度,比如清华或者阿里云,这可能对国内用户有帮助。 另外,用户可能需要验证安装是否成功,比如运行示例命令或检查依赖版本。这部分在现有引用中没有提到,可能需要根据一般安装流程添加。 最后,生成相关问题时要围绕安装过程中可能遇到的问题、优化方法、依赖冲突解决等,帮助用户进一步解决问题。</think>根据FramePack项目的公开资料和技术文档,以下是本地安装的详细指南(基于GitHub仓库信息整理): ### 一、FramePack本地安装步骤 1. **环境准备** - Python ≥3.9 (推荐3.10) - CUDA ≥12.1(需与显卡驱动匹配) - Git版本管理工具 - 建议使用conda创建虚拟环境[^2][^4] 2. **克隆代码库** ```bash git clone https://github.com/lllyasviel/FramePack cd FramePack ``` 3. **安装核心依赖** ```bash # CUDA 12.x版本选择 pip install torch torchvision torchaudio xformers --index-url https://download.pytorch.org/whl/cu121 # 安装项目依赖 pip install -r requirements.txt # 可选加速库 pip install flash-attn --no-build-isolation ``` 4. **模型文件部署** - 将预训练模型放置在`models/`目录 - 推荐使用HuggingFace上的官方模型[^1] 5. **验证安装** ```bash python demo.py --config configs/base.yaml ``` ### 二、常见问题解决方案 1. **CUDA版本不匹配** - 通过`nvidia-smi`查询驱动支持的最高CUDA版本 - 修改PyTorch安装命令中的CUDA版本标识符(如cu118/cu121)[^2] 2. **依赖冲突** - 使用`pip install --force-reinstall`覆盖安装 - 通过`conda create -n framepack_env python=3.10`创建纯净环境[^4] 3. **下载加速** ```bash pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱吃饼干的熊猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值