ComfyUI教程|神秘双截棍上线!16G显存无损跑Flux,抽卡速度狂飙3倍(附安装教程)

一、Nunchaku介绍

今天继续分享一个超级给力的新玩意 Nunchaku,让你的出图速度快到不可思议,比以前说的TeaCache厉害多了。

Nunchaku 是由 MIT Han Lab 开发的 4位扩散模型高效推理引擎,专为优化生成式模型(如Stable Diffusion)的推理速度和显存占用设计。结合 SVDQuant量化技术,它在保持生成质量的同时显著提升性能。

img

技术优势

显存优化:相比传统BF16模型,显存占用减少 3.6倍(例如16GB显存设备可运行更大模型)。

速度提升:在16GB显存设备上,推理速度比16位模型快 8.7倍,比传统4位量化(NF4 W4A16)快 3倍。

无损生成:通过低秩分解和核融合技术,4位量化模型生成质量与原始模型几乎无差异(参考官方对比图)。

兼容性:支持Flux模型生态、Redux、Lora、ControlNet及多显卡架构(NVIDIA Ampere/Ada/A100)。

官网地址:https://github.com/mit-han-lab/nunchaku

相关安装

插件地址:https://github.com/mit-han-lab/ComfyUI-nunchaku

节点管理器里面搜ComfyUI-nunchakuimg

模型下载地址 https://huggingface.co/mit-han-lab

这里包含了很多模型,不过我们主要用的就2个

img

svdq-int4-flux.1-dev` 和 `svdq-int4-flux.1-fill-dev

如果你是50系列显卡,那就下载fp4这个名称的,不然就和我一样下载int4的就行。

要想使用上 nunchaku 这个加速技术,对版本依赖有要求

官网有要求必须PyTorch>=2.5才行

img

如何看自己本地安装的ComfyUI PyTorch版本呢,一般启动的时候系统打印的信息里面会带,比如下面这样

img

我之前是2.4.1+cu124,所以就升级到2.5.1+cu124了。

安装 PyTorch 是要配套的,我是本地安装秋叶整合版,这里有介绍匹配的依赖版本。img

CUDA驱动就不用说了,一开始大家都安装了,一般安装12.4就够了。

Torch以及Xformers我是通过命令执行的,我这里也分享下我升级Torch到2.5.1的命令。

步骤一:卸载旧的
pip uninstall torch torchvision torchaudio

步骤二:安装对应版本
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

步骤三:安装xformers
pip uninstall xformers
python.exe -m pip install xformers==0.0.28.post3 --pre --extra-index-url https://download.pytorch.org/whl/cu124

依赖升级好了后,就要开始配套的安装轮子,这里需要安装nunchaku这个依赖库。

轮子配套文件:https://huggingface.co/mit-han-lab/nunchaku/tree/main

img

这里有好多版本,需要大家根据自己本地情况下载指定的

比如我本地torch是2.5.1,那就是对应torch 2.5 然后我python是3.10,就对应cp310 最终我要下载的就是 nunchaku-0.2.0+torch2.5-cp310-cp310-win_amd64.whl这个轮子

下载好了之后,我丢到ComfyUI对应的python目录下。

img

然后打开对应的CMD路径,输入下面安装命令,就能安装上这个依赖了。

 python.exe -m pip install nunchaku-0.2.0+torch2.5-cp310-cp310-win_amd64.whl

以上,基本环境就搞定了。

三、使用说明

RH在线体验:https://www.runninghub.cn/post/1909977345107918850?utm_source=1c704ef9

要使用这个新技术,工作流变化其实不大,就加载模型的换一下而已,完整文生图工作流如下

img

看下图,这个就是唯一的区别点了,以前用的是UENT加载器,现在该用Numchaku Flux DiT Loader

img

参数说明

  • cache_threshold :控制首块缓存容差,类似于 WaveSpeed 中的 residual_diff_threshold 。增加此值可提高速度,但可能会降低质量。典型值为 0.12。将其设置为 0 可禁用该效果。
  • attention :定义注意力实现方法。您可以选择 flash-attention2 或 nunchaku-fp16 。我们的 nunchaku-fp16 比 flash-attention2 快约 1.2 倍,且不影响精度。对于不支持 flash-attention2 的 Turing GPU(20 系列),您必须使用 nunchaku-fp16 。
  • cpu_offload :为 Transformer 模型启用 CPU 卸载。虽然这会减少 GPU 内存使用量,但可能会减慢推理速度。当设置为 auto 时,它将自动检测您的可用 GPU 内存。如果您的 GPU 内存超过 14GiB,则卸载将被禁用。否则,它将被启用。
  • device_id :运行模型的 GPU ID。
  • data_type :定义反量化张量的数据类型。Turing GPU(20 系列)不支持 bfloat16 ,只能使用 float16。
  • i2f_mode :对于 Turing(20 系列)GPU,此选项控制 GEMM 实现模式。 enabled 和 always 模式略有不同。其他 GPU 架构会忽略此选项。

文生图

来看看跑的效果,一方面看速度差距啊,一方面看出图对比

An elegant, art deco-style cat with sleek, geometric fur patterns reclining next to a polished sign that reads 'MIT HAN Lab' in bold, stylized typography. The sign, framed in gold and silver, exudes a sophisticated, 1920s flair, with ambient light casting a warm glow around it.

img

左边是Flux默认的流用了Flux-dev-fp8模型,右边是用上了 Nunchaku后,模型这里的是 svdq-int4-flux.1-dev,其他参数保持一致。 初速时间差距有3倍,分別12秒和4秒。

另外Flux fp8模型我显存用了16G,而用了int4的话,显存只用了12G。

可以看到图片质量差距不大。

img

Realistic Skin,AJFCY,A beautifully styled portrait featuring a character in a stunning,intricately embroidered white cheongsam,showcasing elegance and traditional charm. The dress is adorned with delicate floral patterns and sequins,reflecting light and adding a luxurious touch. The background features a soft-focus wooden lattice design,creating depth and a cultural ambiance. The lighting is warm and natural,enhancing the texture of the fabric and the intricate details of the outfit. The character poses gracefully with one hand gently holding part of the dress,displaying a poised and confident expression. Accessories include floral hairpins and earrings that complement the outfit,further enhancing the overall aesthetic,closed mouth,Detailed hand,Detailed feet,posing,detailed image,perfection style,

img

Cozy bedroom with vintage wooden furniture and a large circular window covered in lush green vines, opening to a misty forest. Soft, ambient lighting highlights the bed with crumpled blankets, a bookshelf, and a desk. The atmosphere is serene and natural. 8K resolution, highly detailed, photorealistic, cinematic lighting, ultra-HD.

img

从这三张图片对比可以看到,图片质量没有降低,但是速度缺提升了数倍,显存使用也更少了,这就是这个新技术的厉害之处。

Fill模型测试

我们来试试其他模型,比如Fill模型 我拿一个基本的扩图来测试

原图:

img

效果图对比img

full-fill-dev:显存占用15.4G,出图42秒

svdq-int4-flux.1-fill-dev:显存占用12G,出图时间20秒

出图画质差距微乎其微,但是显存和出图时间差距很大,真香。

再来试试局部重绘的

原图

img

效果图img

完美,太强了,以后要用Fill模型,直接用这个int4版本的就好了,显存占用地,效果还一样。

Controlent、lora支持

目前 Nunchaku 也已经支持了lora支持,直接用Flux的lora就行

在大模型加载器后面接入 Nunchaku FLUX.1 LoRA Loader 这个节点即可。

img

下面是我以前测试哪吒的lora,出的图也很完美。

Nezha, a digital computer-generated image of a young anime-style boy with black hair tied into twin buns, red eyes, and a mischievous smile. There is a red forehead mark.
He is wearing a pink trench coat and walking on a fashionable catwalk with the Paris Fashion Week stage in the background and the audience sitting around him

img

Controlent目前也是支持的,可以直接用以前的

img

img

Redux支持

目前最新的版本我看也已经支持了Redux了,相当不错 我来试试万物迁移工作流看看效果

在原来万物迁移工作流上就修改了下模型,其他保持不变。

下面是跑的两组案例测试

  • 原Fill模型,跑图费时42秒,显存占用20G
  • int4版本模型 跑图费时19秒,显存占用14G

img

img

RH平台

推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流(注册即送1000积分可用)。

注册地址:https://www.runninghub.cn/?inviteCode=1c704ef9

img

四、总结

以上就是今天的加速神器 Nunchaku 的测评了,这是我目前用过出图最快的加速技术了,质量几乎无损,速度又快,应该会作为我后期常用的模型了,大家用起来,必备技能之一。

AI时代,值得我们去投入时间研究。

技术的迭代是飞快的,要关注最新的消息才不会掉队。
为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
请添加图片描述

一、ComfyUI配置指南
  • 报错指南
  • 环境配置
  • 脚本更新
  • 后记

img

二、ComfyUI基础入门
  • 软件安装篇
  • 插件安装篇

img

三、 ComfyUI工作流节点/底层逻辑详解
  • ComfyUI 基础概念理解
  • Stable diffusion 工作原理
  • 工作流底层逻辑
  • 必备插件补全

img

四、ComfyUI节点技巧进阶/多模型串联
  • 节点进阶详解
  • 提词技巧精通
  • 多模型节点串联

img

五、ComfyUI遮罩修改重绘/Inpenting模块详解
  • 图像分辨率
  • 姿势

img

六、ComfyUI超实用SDXL工作流手把手搭建
  • Refined模型
  • SDXL风格化提示词
  • SDXL工作流搭建

img

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

img
请添加图片描述

<think>好的,用户想查找关于ComfyUI Flux安装指南或教程。我需要根据提供的引用资料来整理答案。首先,看看引用里提到的步骤。 引用[1]提到安装ComfyUI-Manager,这可能是一个插件管理器,但用户需要的是Flux安装。引用[2]和[3]都提到了进入ComfyUI目录并启动ComfyUI,还有下载FLUX.1-dev模型的具体命令,比如使用wget获取模型文件。引用[4]则提到了工作流的使用,比如选择基础模型和Lora模型。 用户的问题是关于安装指南,所以重点放在下载模型和配置环境上。需要分步骤说明:首先安装ComfyUI,然后下载Flux模型,接着配置启动参数,最后在界面中选择工作流。同时,要确保命令和路径正确,比如使用wget下载,解压到指定目录。 另外,用户可能遇到的问题比如路径错误或依赖缺失,应该在注意事项里提醒。最后生成相关问题,比如模型下载失败怎么办,如何验证安装成功,以及工作流的使用方法。确保引用标记正确,比如每个步骤对应的引用来源。</think>以下是ComfyUI Flux的详细安装指南与使用教程,结合官方文档和社区实践整理: ### 一、环境准备 1. 安装基础环境 - 确认已安装Python 3.8+和Git环境 - 建议使用Ubuntu 20.04+或Windows 10+系统 2. 部署ComfyUI核心 ```bash git clone https://github.com/comfyanonymous/ComfyUI cd ComfyUI pip install -r requirements.txt ``` ### 二、FLUX模型安装步骤 1. 下载FLUX模型文件(以FLUX.1-dev为例) ```bash wget http://file.s3/damodel-openfile/FLUX.1/FLUX.1-dev.tar -P models/ tar -xvf models/FLUX.1-dev.tar -C models/[^3] ``` 2. 安装必要依赖 ```bash pip install torchvision>=0.14.0 pip install xformers==0.0.20 ``` 3. 配置启动参数 ```bash python main.py --listen --enable-cors-header [^2] ``` ### 三、界面配置 1. 加载FLUX工作流 - 点击界面右上角【Unsaved Workflow】 - 选择【基础模型】→【FLUX】→【推荐-FLux真实感Lora模型】[^4] 2. 模型路径验证 ``` ComfyUI ├── models ├── checkpoints │ └── FLUX.1-dev.safetensors └── lora └── flux_realism.safetensors ``` ### 四、注意事项 1. 建议使用NVIDIA显(至少6GB显存) 2. 首次启动会自动下载辅助模型(约5-10分钟) 3. 如遇依赖冲突,可尝试创建虚拟环境: ```bash python -m venv comfy-env source comfy-env/bin/activate ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值