Nunchaku 项目使用与启动教程

最新推荐文章于 2025-05-12 11:55:02 发布

郎轶诺

最新推荐文章于 2025-05-12 11:55:02 发布

阅读量1k

点赞数 11

本文链接：https://blog.csdn.net/gitblog_00084/article/details/146900942

版权

Nunchaku 项目使用与启动教程

nunchaku [ICLR2025] SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models 项目地址: https://gitcode.com/gh_mirrors/nu/nunchaku

1. 项目介绍

Nunchaku 是一个专为 4-bit 扩散模型优化的高性能推理引擎，它基于我们的论文《SVDQuant》中的技术。Nunchaku 能够有效减少模型大小，提升运行速度，并且保持视觉保真度。通过使用 SVDQuant 技术后，12B FLUX.1 模型的大小可以减少至原来的 1/3.6，同时在 RTX 4090 GPU 上提供比 16-bit 模型快 8.7 倍的速度。

2. 项目快速启动

环境准备

确保安装了 PyTorch（版本 >=2.5）。可以使用以下命令安装 PyTorch 2.6：

pip install torch==2.6 torchvision==0.21 torchaudio==2.6

安装 Nunchaku

一旦 PyTorch 环境配置完成，你可以从我们的 Hugging Face 仓库直接安装 Nunchaku。确保选择与你的 Python 和 PyTorch 版本兼容的 wheel 文件。例如，对于 Python 3.11 和 PyTorch 2.6，可以使用以下命令：

pip install https://huggingface.co/mit-han-lab/nunchaku/resolve/main/nunchaku-0.1.4+torch2.6-cp311-cp311-linux_x86_64.whl

注意

NVFP4 的 wheel 文件目前不可用，因为 PyTorch 尚未正式支持 CUDA 11.8。要使用 NVFP4，你需要拥有 Blackwell GPU（例如 50-series GPU）并从源代码构建。

3. 应用案例和最佳实践

以下是使用 Nunchaku 的一些应用案例和最佳实践：

4-bit 文本编码器和逐层 CPU 卸载：通过支持 4-bit 文本编码器和逐层 CPU 卸载，可以降低 FLUX 的最低内存要求至仅 4 GiB，同时保持 2-3× 的速度提升。
自定义 LoRA 转换：ComfyUI 工作流现在支持自定义 LoRA 转换，以及模型量化和 FLUX.1-Tools。
深度到图像演示：我们的深度到图像演示已上线，您可以尝试一下。