Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC文生图方向Task3笔记

Pluses

于 2024-08-15 10:29:14 发布

阅读量596

点赞数 13

分类专栏： Datawhale AI夏令营文章标签：人工智能 AIGC 笔记学习

本文链接：https://blog.csdn.net/qq_74869852/article/details/141101700

版权

Datawhale AI夏令营专栏收录该内容

12 篇文章 0 订阅

订阅专栏

工具初探一ComfyUI应用场景探索

ComfyUI剖析视频：1 万字系统剖析ComfyUI | Stable Diffusion：GUI全盘点

ComfyUI应用场景视频：ComfyUI应用场景探索

官方Github链接：GitHub - ComfyUI

官方应用的示例：ComfyUI Examples

工作流分享网站：Comfy Workflows

在魔搭使用ComfyUI：在魔搭使用ComfyUI，玩转AIGC！

1、初识ComfyUI

ComfyUI 是GUI的一种，是基于节点工作的用户界面，主要用于操作图像的生成技术，ComfyUI 的特别之处在于它采用了一种模块化的设计，把图像生成的过程分解成了许多小的步骤，每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程，这样用户就可以根据需要定制自己的图像生成过程。

使用 ComfyUI 最主要的原因是其对 SDXL 的优化更好，跑图的显存占用更低，速度更快。ComfyUI紧密遵循 SD 的工作原理，并且代码比其他 SD UI 更容易理解。

（1）核心模块

ComfyUI的核心模块由模型加载器（加载基础的模型文件）、提示词管理器（将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入）、采样器（调节生成过程的速度和质量之间的平衡）、解码器（将latent space中的embedding解码为像素级别的图像）构成。

采样（多次）—>降噪—> Stable Diffusion框架运行

采样的系数在KSampler中配置：

seed：控制噪声产生的随机种子

control_after_generate：控制seed在每次生成后的变化

steps：降噪的迭代步数，越多则信号越精准，相对的生成时间也越长

cfg（classifier free guidance）：决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。

denoise: 多少内容会被噪声覆盖

sampler_name、scheduler：降噪参数。

（2）生成图片流程

选择模型（如Stable Diffusion模型等文生图模型）—> 构建工作流（形成完整流程并修改参数）—>执行生成—>调整与优化

（3）优点

占用显存更少。与传统的 WebUI 相比同等大小的显存 ComfyUI 可以出更大的图，尤其现在比较小的显存用 WebUI 玩 SDXL 难度太大。这应该是目前 ComfyUI 迎来第二春的主要原因。
应用上限高，效率也高。ComfyUI 更适合复杂长线的大型工作，可以把传统 WebUI 需要多步操作的流程整合在一个流程里面。
工作流可快速复用。ComfyUI 可以把使用过的工作流保存下来，下次使用相同的流程可以直接加载复用。

（4）缺点

相对于传统的 WebUI 主要劣势是上手难度有些高，ComfyUI 插件现在还是没有 WebUI 多。

参考资料：【ComfyUI】AI绘图工作流，抽卡者的福音，低显存就选她

2、20分钟速通安装ComfyUI

（1）下载脚本代码文件

（2）一键运行

（感觉运行时间有点久）

（3）当执行到最后一个节点的内容输出了一个访问的链接的时候，复制链接到浏览器中访问

（注意：这一步不是要等这个代码块都运行完，而是出现

This is the URL to access ComfyUI:xxxxxxxxxx

时，点击后面的xxxxxxxxxx链接直接进入即可）

（进行完这一步也还没有生成图片噢）

3、浅尝ComfyUI工作流

需要下载工作流脚本加载到刚刚安装的comfyUI上

（1）不带Lora的工作流示例

（2）带Lora的工作流示例

点开图片—>右键—>点击save image，即可保存图片

最后生成的图片如下：

Lora微调

学习视频：通俗易懂理解全量微调和LoRA微调

1、Lora简介

LoRa微调是指对LoRa（Long Range）技术进行优化和调整，以适应特定的应用场景。

LoRa技术特点包括长距离通信和低功耗，适用于远距离物联网应用如农业监测、智能城市等。LoRa微调着重于提高其性能，如在LoRA-drop中层的适配器可被完全训练或根本不被训练，同时AdaLoRA方法可以根据不同适配器决定具有不同的秩。

Lora微调的优势：快速适应新任务，保持泛化能力，提升资源效率

2、Lora详解

参数含义详见Task1笔记：Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC文生图方向Task1笔记

UNet、VAE和文本编码器的协作关系

UNet：负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中，UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入，并预测去噪后的噪声，从而生成与文本描述相符的图像

VAE：生成模型，用于将输入数据映射到潜在空间，并从中采样以生成新图像。在Stable Diffusion中，VAE编码器首先生成带有噪声的潜在表示，这些表示随后与文本条件一起输入到UNet中

文本编码器：将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中，文本编码器使用CLIP模型将文本提示转换为向量，这些向量与VAE生成的噪声一起输入到UNet中，指导图像的生成过程

如何准备一个高质量的数据集

我们应该关注：应用场景、数据类型和数据量

数据集来源整理

公开的数据平台

魔搭社区内开放了近3000个数据集，涉及文本、图像、音频、视频和多模态等多种场景，左侧有标签栏帮助快速导览，大家可以看看有没有自己需要的数据集。

其他数据平台推荐：

ImageNet：包含数百万张图片，广泛用于分类任务，也可以用于生成任务。

Open Images：由Google维护，包含数千万张带有标签的图片。

Flickr：特别是Flickr30kK和Flickr8K数据集，常用于图像描述任务。

CelebA：专注于人脸图像的数据集。

LSUN (Large-scale Scene Understanding)：包含各种场景类别的大规模数据集。

使用API或爬虫获取

如果需要特定类型的内容，可以利用API从图库网站抓取图片，如Unsplash、Pexels等。

使用网络爬虫技术从互联网上抓取图片，但需要注意版权问题。

数据合成

利用现有的图形引擎（如Unity、Unreal Engine）或特定软件生成合成数据，这在训练某些类型的模型时非常有用。

参考资料：从零入门多模态大模型数据合成

数据增强

对于较小的数据集，可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。

购买或定制

特定领域的应用，比如医学影像、卫星图像等，建议从靠谱的渠道购买一些数据集