Datawhale X 魔塔 AI夏令营 AIGC task3 进阶上分-实战优化

幻兽帕鲁

已于 2024-08-18 10:55:34 修改

阅读量743

点赞数 17

分类专栏： AIGC 文章标签：人工智能 AIGC

于 2024-08-18 10:37:29 首次发布

本文链接：https://blog.csdn.net/m0_49134108/article/details/141295701

版权

AIGC 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、ComfyUI模型

1.概念介绍

GUI 是 “Graphical User Interface”（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。

ComfyUI 是一个开源的用户界面工具，通常用于图形界面的构建和设计，尤其是在深度学习和数据处理领域。它提供了一套工具和组件，帮助用户创建定制化的界面，以便更方便地与模型和数据进行交互。

ComfyUI核心模块分别由模型加载器、提示词管理器、采样器、解码器组成。

模型加载器：Load Checkpoint用于加载基础的模型文件，包含了Model、CLIP、VAE三部分。

CLIP模块将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入。CLIP节点则需要输入提示词，其中CLIP节点需要两个，一个作为正向提示词链接K采样器，一个作为负向提示词链接采样器。

解码器：VAE模块的作用是将Latent space中的embedding解码为像素级别的图像。VAE生成模型，用于将输入数据映射到潜在空间，并从中采样以生成新图像。

采样器：用于控制模型生成图像，不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡。

UNet：负责根据输入的噪声和文本条件生成图像。

文本编码器：将文本输入转换为模型可以理解的向量表示。

K采样器是SD出图流程中的核心节点，所有节点载入，数据输入，参数配置，最后都会汇总到K采样器，它会结合载入的模型，提示词的输入以及Latent输入，进行采样计算，输出得到最终图像。

工作流：通过直观的界面允许用户输入数据、配置模型、生成和优化图像，并最终保存结果的整个流程被称为工作流。

Stable Diffusion的基本原理是通过降噪的方式（如完全的噪声图像），将一个原本的噪声信号变为无噪声的信号（如人可以理解的图像）。其中的降噪过程涉及到多次的采样。采样的系数在KSampler中配置。

生成图片流程
在这里插入图片描述

二、LoRA模型

1.原理

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。

LoRA（Low-Rank Adaptation）本质上是对特征矩阵进行低秩分解的一种近似数值分解技术，可以大幅降低特征矩阵的参数量，但是会伴随着一定的有损压缩。

2.参数

参数名称	参数值	说明
`pretrained_unet_path`	models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors	指定预训练UNet模型的路径
`pretrained_text_encoder_path`	models/kolors/Kolors/text_encoder	指定预训练文本编码器的路径
`pretrained_fp16_vae_path`	models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors	指定预训练VAE模型的路径
`lora_rank`	16	设置LoRA的秩（rank），影响模型的复杂度和性能
`lora_alpha`	4	设置LoRA的alpha值，控制微调的强度
`dataset_path`	data/lora_dataset_processed	指定用于训练的数据集路径
`output_path`	./models	指定训练完成后保存模型的路径
`max_epochs`	1	设置最大训练轮数为1
`center_crop`		启用中心裁剪，用于图像预处理
`use_gradient_checkpointing`		启用梯度检查点，节省显存
`precision`	“16-mixed”	设置训练时的精度为混合16位精度（half precision）

三、ComfyUI应用模型

根据Datawhale教程打开魔塔平台PAI-DSW实例

下载安装 ComfyUI的执行文件 和 task1中微调完成Lora文件

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors_test_comfyui.git
mv kolors_test_comfyui/* ./
rm -rf kolors_test_comfyui/
mkdir -p /mnt/workspace/models/lightning_logs/version_0/checkpoints/
mv epoch=0-step=500.ckpt /mnt/workspace/models/lightning_logs/version_0/checkpoints/

进入ComfyUI的执行文件一键执行
通过此个网址进入ComfyUI网页
不带Lora的工作流样例
下载脚本，点击Queue prompt,执行效果如图。
带Lora的工作流样例
下载脚本，点击Queue prompt,执行效果如图。

参考链接：

幻兽帕鲁

关注

17
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 魔塔 AI夏令营 AIGC task3 进阶上分-实战优化

GUI 是 “Graphical User Interface”（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。ComfyUI 是一个开源的用户界面工具，通常用于图形界面的构建和设计，尤其是在深度学习和数据处理领域。它提供了一套工具和组件，帮助用户创建定制化的界面，以便更方便地与模型和数据进行交互。ComfyUI核心模块分别由模型加载器、提示词管理器、采样器、解码器组成。
复制链接

扫一扫

专栏目录