文生图流程解析

AI赋能说

已于 2024-07-10 18:01:42 修改

阅读量1.6k

点赞数 26

分类专栏： AI ComfyUI 文章标签： AI作画 AIGC ai 图像处理

于 2024-07-10 17:36:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/solblog/article/details/140329890

版权

AI 同时被 2 个专栏收录

37 篇文章

订阅专栏

15 篇文章

订阅专栏

文生图流程解析

一、介绍

本篇介绍下文生图这个最基本的工作流，上一篇已经介绍过了ComfyUI的出图原理了，结合这个原理来做这个工作流，你会发现非常顺。

原理篇介绍过，底层的话其实是包含大模型、CLIP和VAE、采样器，下面具体说明也围绕这方面来展开。

二、工作流具体步骤介绍

启用comfyUI，默认的工作流就是文生图，这个是所有流程的基础，所以我们一定要心里有数，这里的每个节点都是用来干嘛的。

这里再把原理那边的核心图片放出来，一会要用到

加载顺序介绍

在空白界面右键，这里展示出来的顺序其实也是推荐的顺序，先选择一个K采样器。

这个采样器呢，左侧有4个输入，右侧有一个输出

随便一个节点拖出来就会弹出对应的推荐的节点，所以很方便。

这里说一下采样器和调度器，在stable diffusion里面这2个是合在一起的，在comfyUI是分开的。

dpmpp_2m 这里的pp就是webui里面的++的意思

采样器选择 dpmpp_2m 调度器选择 Karras，就等同于webUI中的 DPM++ 2M Karras采样器。

调度器说明：

这里其实就是一些降噪曲线

normal是线性的
karras是曲线降噪，较为平滑
exponential 急速降噪、收敛较快
sgm_uniform要配合上面lcm搭配使用

降噪参数就是输入输出有个加噪和减噪的过程，数值越小越像水墨画的风格。

现在先来模型这个节点拖动出来，可以看到一些推荐的节点，这里我们是需要Checkpoint加载器，也就是大模型节点。

然后是文本提示词，回想一下之前的工作原理，文本时通过CLIP编码器的，所以正负提示词拖出来，选择CLIP文本编码器。

然后你会发现大模型输出里面也有CLIP，应该就晓得要连到CLIP文本编码器上，这样就打通了大模型把文本token化的过程。

接下来，如果是文生图，原理里面还提到了，需要生成一个空白的图片，这里的话就是对应采样器输入的Latent节点，拖出来，选择一个空Latent。

这个空的Latent可以设置你要生成的图片的大小尺寸。

输入和采样都介绍了，这时候需要输出成图像了，回顾下原理上说的，输出的时候需要先VAE解码，所以K采样器的输出Latent拖出来，选择一个VAE解码。

解码之后，就是要变成图片了，VAE解码的输出图像节点拖出来，选择保存图像或者预览图像都行。

这时候运行会报错，应该还差最后一个步骤，需要把大模型的VAE和VAE解码的 VAE节点连接起来，才算一个完整的流程。原理和实际工作流对应关系大家可以看我这里画的，不同颜色对应关系，看完后是不是感觉任督二脉被打通了。

最后图片是保存在路径 \ComfyUI_windows_portable\ComfyUI\output 中。

三、总结

再来回顾一下，上一篇说的ComfyUI的工作原理。

采样器通过模型形成一个Latent space。

我们输入的参数有text prompt，通过clip编码器，是由模型提供的，变成token输入给采样器。

然后用一个空的Latent图片，直接给采样器，作为基础的采样

采样器经过多次的工作，也就是对应步数那个属性，这里设置的是20步，也就是执行了20次。

然后生成了Latent的结果，Latent结果经过解码，就变成了我们需要的图片了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。