Stable Diffusion，WebUI，ComfyUI它们之间的关系，你真的懂吗？

飞天小牛仔

已于 2024-12-29 16:30:56 修改

阅读量4k

点赞数 20

文章标签： stable diffusion 人工智能 AI作画

于 2024-09-13 09:59:29 首次发布

本文链接：https://blog.csdn.net/m0_71745258/article/details/142202690

版权

01、Stable Diffusion是什么

StableDiffusion是一种基于Transformer结构的扩散模型，对的，他其实就是一个模型，并不是我们大家之前理解的WebUI，其实WebUI只是加载SD模型的这样的一个框架，而且是页面可视化的框架。当然了，SD这个模型同时也是可以进行文生图，图生图，等AI绘画操作的模型。

02、Stable Diffusion的展现形式

就目前来说，SD的展现形式大概有以下四种

Stable Diffusion WebUI框架
ComfyUI框架
Diffusers框架
SD.Next框架

所有大家以后出去跟别人聊天的时候可不敢把SD直接等同于WebUI了，也不要问SD和ComfyUI什么关系了，我这样一列出来，大家是不是很清楚了，上面的这三个框架就是加载SD这个模型的，也就是让SD实现文生图，图生图这些功能的。

而且也可以看出来WebUI和ComfyUI其实是相同的东西，只不过是webUI是一个集成度更高的SD框架，它里面把SD实现过程都隐藏起来了，用户只需要很简单的输入文字或是上传图片就可以生成图，这样其实是有弊端的，那就是用户的可控性下降了，而且出图的方式不易被传播。

这才有了ComfyUI的登场，ComfyUI它是以一个个的节点像堆积木一样把整个任务连在一起，各个模块之间可以说是独立的，这样的方式，它就方便传播，同时也方便修改，而且还有利于团队之间的合作，团队之间进行模块化的开发和组装，现实生活中大而复杂的东西都是会进行模块化的，这个大家看看身边的一些事情就知道了。

那至于Diffusers和SD.Next框架，这个小飞哥不是很熟悉，所有这里就多说了，我会把他们的官网贴出来放在简介中，感兴趣的小伙伴自取吧。而且我个人推荐直接用ComfyUI就行了。

03、Stable Diffusion原理

这里说点题外话，我个人觉的学习一个东西两样东西是很重要的

第一点是学的过程一定要做好笔记，不能看电影或是听说书一样
第二点学的东西一定要更进一步了解它的原理，所谓的了解，我觉的因人而异，你如果是科班出生在原理的行业里，比如SD的原理肯定是跟算法相关的，那你就得要去了解他们具体的算法和实现，如果你不是的话，那也要能把这个原理用自己能方式呈现出来，也就是类比出来。这样你在具体实操的时候才会游刃有余，并能很好的拓展和质疑权威，这才算真真的入了门。

所以下面对于原理的讲解我会采取一种通俗易懂的方式给大家讲明白，而且讲原理的目的就是为了能更好的搭建ComfyUI的工作流，能做到一遍就会永久不忘
前面我们知道SD是基于Transformer的扩散模型，它其实是由以下三个部分组成的

用于把文字和图像解析成向量的CLIP模块
用于对图像优化和控制的U-Net模块
用于空间转换的VAE模块

首先我们想一个问题，计算机它是怎么知道我文字表达的含义的，其实大家都知道计算机它只知道0和1，其他的一概不懂，所有就需要一个东西把我们的汉字也好，英文也罢变成0和1，这就是CLIP模块存在的重要使命，它通过特定的算法会把自然语言变成0，1的向量矩阵，也即是embedding的过程。

然后把这些特定的矩阵输入下一个模块中，先不急，先来想一个问题，我们最终拿到的是图片，图片的大小是用像素表示的，比如一张512*512的图片，就会由262,144个像素，每个像素点去找类似的这对于显卡的内存可是一笔不小的开销，所有这里是不是可以压缩下呢？答案是可以的，这就引出VAE模块，对了，它就是专门把一个图片压缩到一个非常小的空间中也就是Latent space（隐空间），然后经过U-Net模块优化生成预想的图片，然后由把隐空间的图像放大到原来像素级别的图像展现给我们。

最后就剩下一个图片优化模块–U-Net模块了，它也是SD中的核心模块，一句话概括它是根据前面文字或图片的编码向量矩阵，到训练好的大模型中匹配到跟这些矩阵相似度最接近的那些矩阵，也就是大模型预训练阶段标注好的那些图片。当然了它是一个很复杂的过程，主要分为两个过程，一个是向前扩散，一个是后向扩散，前向扩散是在图片逐渐添加噪点的过程，使其成为一个随机的高斯分布噪声矩阵，向后扩散是正好相反，它是通过文字的语义，或是对原先图片相似度的控制，来不断的给随机图片去噪声，最终得到预想的图片，最后通过VAE解码成像素级图片展现出来