文生图流程解析

14 篇文章 0 订阅

文生图流程解析

一、介绍

本篇介绍下文生图这个最基本的工作流,上一篇已经介绍过了ComfyUI的出图原理了,结合这个原理来做这个工作流,你会发现非常顺。

原理篇介绍过,底层的话其实是包含大模型CLIP和VAE采样器,下面具体说明也围绕这方面来展开。

二、工作流具体步骤介绍

启用comfyUI,默认的工作流就是文生图,这个是所有流程的基础,所以我们一定要心里有数,这里的每个节点都是用来干嘛的。

这里再把原理那边的核心图片放出来,一会要用到

加载顺序介绍

在空白界面右键,这里展示出来的顺序其实也是推荐的顺序,先选择一个K采样器。

这个采样器呢,左侧有4个输入,右侧有一个输出

随便一个节点拖出来就会弹出对应的推荐的节点,所以很方便。

这里说一下采样器和调度器,在stable diffusion里面这2个是合在一起的,在comfyUI是分开的。

dpmpp_2m 这里的pp就是webui里面的++的意思

采样器选择 dpmpp_2m 调度器选择 Karras,就等同于webUI中的 DPM++ 2M Karras采样器。

调度器说明:

这里其实就是一些降噪曲线

  • normal是线性的

  • karras是曲线降噪,较为平滑

  • exponential 急速降噪、收敛较快

  • sgm_uniform要配合上面lcm搭配使用

降噪参数就是输入输出有个加噪和减噪的过程,数值越小越像水墨画的风格。

现在先来模型这个节点拖动出来,可以看到一些推荐的节点,这里我们是需要Checkpoint加载器,也就是大模型节点。

然后是文本提示词,回想一下之前的工作原理,文本时通过CLIP编码器的,所以正负提示词拖出来,选择CLIP文本编码器。

然后你会发现大模型输出里面也有CLIP,应该就晓得要连到CLIP文本编码器上,这样就打通了大模型把文本token化的过程。

接下来,如果是文生图,原理里面还提到了,需要生成一个空白的图片,这里的话就是对应采样器输入的Latent节点,拖出来,选择一个空Latent。

这个空的Latent可以设置你要生成的图片的大小尺寸。

输入和采样都介绍了,这时候需要输出成图像了,回顾下原理上说的,输出的时候需要先VAE解码,所以K采样器的输出Latent拖出来,选择一个VAE解码。

解码之后,就是要变成图片了,VAE解码的输出图像节点拖出来,选择保存图像或者预览图像都行。

这时候运行会报错,应该还差最后一个步骤,需要把大模型的VAE和VAE解码的 VAE节点连接起来,才算一个完整的流程。原理和实际工作流对应关系大家可以看我这里画的,不同颜色对应关系,看完后是不是感觉任督二脉被打通了。

最后图片是保存在路径 \ComfyUI_windows_portable\ComfyUI\output 中。

三、总结

再来回顾一下,上一篇说的ComfyUI的工作原理。

采样器通过模型形成一个Latent space。

我们输入的参数有text prompt,通过clip编码器,是由模型提供的,变成token输入给采样器。

然后用一个空的Latent图片,直接给采样器,作为基础的采样

采样器经过多次的工作,也就是对应步数那个属性,这里设置的是20步,也就是执行了20次。

然后生成了Latent的结果,Latent结果经过解码,就变成了我们需要的图片了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值