Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task3笔记

工具初探一ComfyUI应用场景探索

ComfyUI剖析视频:1 万字系统剖析ComfyUI | Stable Diffusion:GUI全盘点 

 ComfyUI应用场景视频:ComfyUI应用场景探索

官方Github链接:GitHub - ComfyUI

官方应用的示例:ComfyUI Examples 

工作流分享网站:Comfy Workflows

在魔搭使用ComfyUI:在魔搭使用ComfyUI,玩转AIGC!

        1、初识ComfyUI

        ComfyUI 是GUI的一种,是基于节点工作的用户界面,主要用于操作图像的生成技术,ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。 

        使用 ComfyUI 最主要的原因是其对 SDXL 的优化更好,跑图的显存占用更低,速度更快。ComfyUI紧密遵循 SD 的工作原理,并且代码比其他 SD UI 更容易理解。

(1)核心模块 

        ComfyUI的核心模块模型加载器(加载基础的模型文件)、提示词管理器(将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入)、采样器(调节生成过程的速度和质量之间的平衡)、解码器(将latent space中的embedding解码为像素级别的图像)构成。 

采样(多次)—>降噪—> Stable Diffusion框架运行

采样的系数在KSampler中配置:

  • seed:控制噪声产生的随机种子

  • control_after_generate:控制seed在每次生成后的变化

  • steps:降噪的迭代步数,越多则信号越精准,相对的生成时间也越长

  • cfg(classifier free guidance):决定了prompt对于最终生成图像的影响有多大。更高的值代表更多地展现prompt中的描述。

  • denoise: 多少内容会被噪声覆盖

  • sampler_name、scheduler:降噪参数。

(2)生成图片流程

        选择模型(如Stable Diffusion模型等文生图模型)—> 构建工作流(形成完整流程并修改参数)—>执行生成—>调整与优化

(3)优点

  • 占用显存更少。与传统的 WebUI 相比同等大小的显存 ComfyUI 可以出更大的图,尤其现在比较小的显存用 WebUI 玩 SDXL 难度太大。这应该是目前 ComfyUI 迎来第二春的主要原因。
  • 应用上限高,效率也高。ComfyUI 更适合复杂长线的大型工作,可以把传统 WebUI 需要多步操作的流程整合在一个流程里面。
  • 工作流可快速复用。ComfyUI 可以把使用过的工作流保存下来,下次使用相同的流程可以直接加载复用。

 (4)缺点

        相对于传统的 WebUI 主要劣势是上手难度有些高,ComfyUI 插件现在还是没有 WebUI 多。


参考资料:【ComfyUI】AI绘图工作流,抽卡者的福音,低显存就选她 

        2、20分钟速通安装ComfyUI

 (1)下载脚本代码文件

(2) 一键运行

(感觉运行时间有点久)

(3)当执行到最后一个节点的内容输出了一个访问的链接的时候,复制链接到浏览器中访问

(注意:这一步不是要等这个代码块都运行完,而是出现

This is the URL to access ComfyUI:xxxxxxxxxx

时,点击后面的xxxxxxxxxx链接直接进入即可)

(进行完这一步也还没有生成图片噢) 

        3、浅尝ComfyUI工作流

需要下载工作流脚本加载到刚刚安装的comfyUI上

 (1)不带Lora的工作流示例

(2)带Lora的工作流示例

点开图片—>右键—>点击save image,即可保存图片 

最后生成的图片如下:

Lora微调

学习视频:通俗易懂理解全量微调和LoRA微调 

        1、Lora简介

         LoRa微调是指对LoRa(Long Range)技术进行优化和调整,以适应特定的应用场景。

        LoRa技术特点包括长距离通信和低功耗,适用于远距离物联网应用如农业监测、智能城市等。LoRa微调着重于提高其性能,如在LoRA-drop中层的适配器可被完全训练或根本不被训练,同时AdaLoRA方法可以根据不同适配器决定具有不同的秩。

Lora微调的优势:快速适应新任务,保持泛化能力,提升资源效率 

        2、Lora详解 

参数含义详见Task1笔记:Datawhale X 魔搭 AI夏令营 第四期魔搭-AIGC文生图方向Task1笔记

UNet、VAE和文本编码器的协作关系

  • UNet:负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中,UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并预测去噪后的噪声,从而生成与文本描述相符的图像

  • VAE:生成模型,用于将输入数据映射到潜在空间,并从中采样以生成新图像。在Stable Diffusion中,VAE编码器首先生成带有噪声的潜在表示,这些表示随后与文本条件一起输入到UNet中

  • 文本编码器:将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中,文本编码器使用CLIP模型将文本提示转换为向量,这些向量与VAE生成的噪声一起输入到UNet中,指导图像的生成过程

如何准备一个高质量的数据集

我们应该关注:应用场景、数据类型和数据量 

数据集来源整理

公开的数据平台

        魔搭社区内开放了近3000个数据集,涉及文本、图像、音频、视频和多模态等多种场景,左侧有标签栏帮助快速导览,大家可以看看有没有自己需要的数据集。

其他数据平台推荐:

  • ImageNet:包含数百万张图片,广泛用于分类任务,也可以用于生成任务。

  • Open Images:由Google维护,包含数千万张带有标签的图片。

  • Flickr:特别是Flickr30kK和Flickr8K数据集,常用于图像描述任务。

  • CelebA:专注于人脸图像的数据集。

  • LSUN (Large-scale Scene Understanding):包含各种场景类别的大规模数据集。

使用API或爬虫获取

  • 如果需要特定类型的内容,可以利用API从图库网站抓取图片,如Unsplash、Pexels等。

  • 使用网络爬虫技术从互联网上抓取图片,但需要注意版权问题。

数据合成

        利用现有的图形引擎(如Unity、Unreal Engine)或特定软件生成合成数据,这在训练某些类型的模型时非常有用。

参考资料:从零入门多模态大模型数据合成

数据增强

对于较小的数据集,可以通过旋转、翻转、缩放、颜色变换等方式进行数据增强。

购买或定制

特定领域的应用,比如医学影像、卫星图像等,建议从靠谱的渠道购买一些数据集

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pluses

喜欢就给颗糖果吧╰(*°▽°*

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值