程序员的视角解析 ComfyUI

最新推荐文章于 2024-08-22 16:27:36 发布

云水木石

最新推荐文章于 2024-08-22 16:27:36 发布

阅读量998

点赞数 9

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mogoweb/article/details/139795601

版权

目前使用 Stable Diffusion 进行创作的主要工具有三个：SD-WebUI、Fooocus 和 ComfyUI。这三者在用户交互界面设计上各有特色。

首先来看 Fooocus，其用户界面极简。用户通常只需输入提示词，即可生成图像。

对于有更高参数控制需求的用户，可以勾选 Advanced 以显示高级选项。

虽然可以调整的参数有限，但设计相对克制，提供的参数易于理解。Fooocus 不仅用户界面极简，安装和升级也只需一个脚本搞定，包括模型下载，真正实现了开箱即用。由于其简洁性，Fooocus 迅速吸引了大量 SD-WebUI 用户，广受欢迎。

接下来看看 SD-WebUI 的用户界面，功能齐全，几乎涵盖了所有可能的设置选项。

可以说，SD-WebUI 的特点是全面，几乎将所有控制权交给用户，插件支持更是高级玩家的最爱。当然，这也引发了一些用户的批评，认为其界面过于复杂。

最后看看 ComfyUI 的用户界面，初见是不是会眼前一黑：

加载一个事先制作好的工作流后：

这种极客风格的界面可能会让不少用户望而却步。然而，ComfyUI 凭借其高度可定制性和复现性迅速赢得了设计师们的青睐。对于程序员来说，这样的界面反而显得亲切。

ComfyUI 将整个图像生成过程分解为多个独立的节点，每个节点都有自己独立的功能，例如加载模型、处理文本提示、生成图像等。每个模块通过输入和输出的连接线组合成一个完整的工作流。

用户可以灵活调整和配置不同的功能节点，使流程更加自由、控制更加精准。

ComfyUI 设计成这种工作流模式并非没有原因。因为 Stable Diffusion 的底层运行逻辑也是如此，要更好地理解和掌握 ComfyUI，先了解一些 Stable Diffusion 的底层运行逻辑是有帮助的。

LDM 底层逻辑

Stable Diffusion 的基础模型是 Latent Diffusion Model（LDM），即潜在扩散模型。可以理解为主要的图片生成流程都在一个叫「latent space（潜在空间）」的空间中进行。

图片在这个空间中的存在方式是我们无法识别的向量。我们只需要知道这些向量表示的信息和图片相差无几，但数据尺寸却变得非常小，这是一个类似压缩的过程，因此在这个空间中运行可以大大缩小运行内存。

这个过程可以简单理解为向潜在空间输入文件，数据经过处理生成图片并输出：

如果是文本生图，输入的是提示语（Prompts），即文本内容。由于计算机无法理解文本内容，因此需要将文本转换为计算机能够理解的信息，这个过程使用了 Clip 模型。而潜在空间里的图片，我们也无法理解，需要使用 VAE 模型转换成图片格式。所以整个流程如下：

控制模型实际生成部分的是 KSampler（采样器），在这其中我们可以控制迭代次数、种子数值等。而这个步骤就发生在潜在空间中。

这就是最基础的文生图过程：

再看一个 ComfyUI 的最基础模型，就会清晰很多。

小结

ComfyUI 工作流是一个基于图形节点编辑器的工作流程，通过拖拽各种节点到画布上，连接节点之间的关系，构建一个从加载模型到生成图像的工作流程。

每个节点代表一个 Stable Diffusion 相关的模型或功能，节点之间通过连线传递信息。

ComfyUI 工作流从加载模型开始，加载模型节点负责加载训练好的 Stable Diffusion 模型。

然后，通过 CLIP Text Encode 节点对输入的关键词 Prompt 进行处理，将文本转换为图像描述，并生成一个初始的 Latent Image。

接下来，进入采样器和 VAE 解码节点，这两个节点的作用是将初始的 Latent Image 进行采样和编码解码，得到生成的图像。

最后，生成的图像会通过连线传递到下一个节点进行进一步处理或输出。

通过组合简单的工作流，可以实现很多复杂的工作流程，这也是 ComfyUI 的强大之处。

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
程序员的视角解析 ComfyUI

目前使用 Stable Diffusion 进行创作的主要工具有三个：SD-WebUI、Fooocus 和 ComfyUI。这三者在用户交互界面设计上各有特色。首先来看 Fooocus，其用户界面极简。用户通常只需输入提示词，即可生成图像。对于有更高参数控制需求的用户，可以勾选 Advanced 以显示高级选项。虽然可以调整的参数有限，但设计相对克制，提供的参数易于理解。Fooocus 不仅用户界...
复制链接

扫一扫

云水木石 CSDN认证博客专家 CSDN认证企业博客

码龄14年

355: 原创

1万+: 周排名

1646: 总排名

142万+: 访问

: 等级

1万+: 积分

1757: 粉丝

1836: 获赞

997: 评论

4266: 收藏

私信

关注

热门文章

分类专栏

最新评论

Deepin V23，转正了
supermy: 驱动全一点，办公套件选好一点。
Deepin V23，转正了
Python老吕: Linux内核就像是发动机，这个比喻能接受，但是不贴切。适合新手理解Linux内核是什么罢了。文章里面我只是看到了deepin的广告罢了，不管怎么说，始终是Linux套个皮，毛坯房装修一下。不过，起码有人先学会在别人的系统基础上套个皮，也算是进步。在中国往往想做系统内核的人，生活压力太大，手停口停，不然也能抽时间专门去研究开发自己的内核。
Deepin V23，转正了
qq_40303853: 头痛不敢请假，会被领导批评。有一种情况，领导不会批评，那就是今天请假该扣的工资扣了，然后星期天来义务补一天班(周六正常上班)。思来想去，还是忍着吧
Deepin V23，转正了
m0_62614312: 还有11分钟下班
写给开发人员的实用密码学 - 对称加密算法
CSDN-Ada助手: 密码学如何影响密码策略的设计和管理？哪些密码是安全的？哪些是容易被猜到的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云水木石 但行好事，莫问前程

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。