用工作流平台ComfyUI来完成文生图
1.concept
GUI是“Graphical User Interface”(图形用户界面)的缩写。简单来说,一种让用户通过直观的图形和视觉元素如按钮、图标和菜单来与电子设备交互的界面,能够极大地简化了操作复杂度并提升了用户体验。
ComfyUI是GUI的一种,主要用于操作图像的生成技术。ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。
2.ComfyUI核心模块
1.2.1CheckpointLoader模型加载器,用于加载基础的模型文件
1.2.2CLIP,将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入。
What is “latent space embedding”(潜在空间嵌入)?一种在数据处理和机器学习中常见的技术,主要用于将复杂、高纬度的数据转换成简单、低纬度的数据,便于数据的整理和分析。通过这种方式,我们可以更容易地进行数据分析、可视化和其他处理任务,尤其是在处理图像、语音或文本这类复杂数据时。
1.2.3VAE解码器,将latent space中的embedding解码为像素级别的图像。
1.2.4采样器,用于控制模型生成图像,不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡。
想象Stable Diffusion就像是一个魔术师,它能够将一张满是随机噪点的“噪声图”变成一张清晰的图片,比如一张漂亮的风景画或者一个人物肖像。这个变化过程称为“降噪”,就是逐渐去除这些噪点,让图片从混乱变得清晰。
在这个魔术过程中,有几个关键的设置:
-
seed(种子):这就像是魔术的起始点。种子是一个数字,用来控制噪声图的初始模样。改变种子,噪声图也会改变,从而影响最终的图片。
-
control_after_generate(生成后控制):每次魔术完成后,你可以选择是否改变种子,这样下一次的魔术会有新的起点。
-
steps(步骤):这是降噪的过程中需要重复多少次“魔法”,每多一次,图片就会更清晰,但也需要更多的时间。
-
cfg(分类器自由引导):这个设置决定了你给魔术师的指示(prompt)对最终图片的影响有多大。数值越高,最终的图片越忠实于你的描述。
-
denoise(去噪力度):这决定了在降噪过程中会保留多少原始内容,即多少噪声会被清除。