一、初识ComfyUI工具
ComfyUI 是一个开源的图形用户界面(GUI)工具,它主要用于简化稳定扩散(Stable Diffusion)模型的操作流程。稳定扩散模型是一种用于生成图像的人工智能模型,能够根据给定的文本描述或其他条件生成相应的图像。ComfyUI 提供了一个直观的拖拽式界面,允许用户通过简单的图形化操作来构建复杂的图像生成流程。它不仅仅限于文本到图像的转换,还支持多种不同的 AI 模型和处理步骤,如图像到图像的转换、图像修复、超分辨率增强等。其核心模块由 模型加载器Load Checkpoint、提示词管理器CLIP、采样器VAE、解码器 组成。
Stable Diffusion的基本原理是通过降噪的方式(如完全的噪声图像),将一个原本的噪声信号变为无噪声的信号(如人可以理解的图像)。其中的降噪过程涉及到多次的采样。采样的系数在KSampler中配置:
- seed:控制噪声产生的随机种子
- control_after_generate:控制seed在每次生成后的变化
- steps:降噪的迭代步数,越多则信号越精准,相对的生成时间也越长
- cfg:classifier free guidance决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。
- denoise: 多少内容会被噪声覆盖 sampler_name、scheduler:降噪参数。
模型加载器:Load Checkpoint用于加载基础的模型文件,包含了Model、CLIP、VAE三部分。
提示词管理器:CLIP模块将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入。
解码器:VAE模块的作用是将Latent space中的embedding解码为像素级别的图像。
采样器:用于控制模型生成图像,不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡。
总的来说ComfyUI图片生成流程如下:
安装和设置 ComfyUI:下载并安装 ComfyUI;运行 ComfyUI 的 Web 界面。
构建工作流:在 ComfyUI 的 Web 界面中创建节点;将节点连接起来形成处理流程。
图片生成流程:输入:输入文本提示;模型应用:选择模型并配置参数;输出:查看或保存生成的图像。
二、实操过程
根据教程下载安装ComfyUI的执行文件和task1中微调完成Lora文件 ,代码如下:
git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git
mv kolors_test_comfyui/* ./
rm -rf kolors_test_comfyui/
mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/
mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/
之后进入ComfyUI的安装文件进行程序的安装。当出现如下This is the URL to access ComfyUI的网址,点击网址进入其中。
启动ComfyUI
1、首先使用不带Lora的工作流样例,得到如下结果:
2、接着使用带Lora的工作流样例,得到如下图片
三、关于Lora
Lora中参数详情表