AIGC方向，零基础的AI生图实践Task3！#Datawhale X 魔搭 AI夏令营#Datawhale AI 夏令营 #Datawhale #夏令营第四期-CSDN博客

本文链接：https://blog.csdn.net/2402_86522838/article/details/141271353

#Datawhale X 魔搭 AI夏令营#Datawhale AI 夏令营 #Datawhale #夏令营第四期

这次迎来了本期夏令营的第三个任务Task3。这次我使用ComfyUI分别尝试了不带Lora的带Lora的工作流，接下来给大家具体讲讲本次Task3的流程及我自己的一些收获。

先说说ComfyUI，我在之前就自己部署到本地使用过一阵儿了，这次托Datawhale和魔塔社区以及阿里云的福，更加方便更加节省时间地以另一种方式使用了。那么ComfyUI是什么呢，这里援引Task3的解释：GUI 是 "Graphical User Interface"（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。而ComfyUI 是GUI的一种，是基于节点工作的用户界面，主要用于操作图像的生成技术，ComfyUI 的特别之处在于它采用了一种模块化的设计，把图像生成的过程分解成了许多小的步骤，每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程，这样用户就可以根据需要定制自己的图像生成过程。我的理解是，如果你之前直接使用Midj或者SD，那么你完全是使用者，而利用ComfyUI你将不仅仅是使用者，你还是模型的间接创作者。这里给大家截图看看其步骤节点图的分布和整个ComfyUI的创造背景，如下图所示：

流程中包含了VAE、CLIP等部分。其中，CLIP模块将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入，VAE模块的作用是将Latent space中的embedding解码为像素级别的图像（我目前也不明白这些模型文件更多的具体作用，只知道这些不可缺少，这里列举一些任务3指南中的解释）。从我这段时间自己的尝试以及在这次任务中的摸索，我体会到了这种可视化、灵活化、模块化的好处。

接下来再说说安装好ComfyUI之后的尝试吧。首先是导入不带Lora的模型来生图，产出的图片质量还挺不错的哈哈哈。这里我稍微改了改任务3 的提示词，生成的图片如下：

接下来尝试导入带有Lora的模型进行生图，同样对任务3的提示词做了些修改，生成的图片如下：

这里谈谈我使用后的想法：第一，即使不带Lora的模型，我认为也已经能够满足大多数爱好者的玩乐和创作需求了。不禁感叹，模型发展与迭代真迅速，这种生图质量，感觉比一年前收费的Midj要好；第二，当工作流携带了Lora，结合我自己的操作与任务3中的范例，我可以明显感觉到，带有Lora的生成图片过程将会更灵活更贴近创作者的需求和想法。玩家和创作者可以通过带有Lora的工作流模型来实现自己的个性化表达，这对爱好AI创作的人来说，简直是太棒了。当然，从技术角度来看，Lora还具有一些优势，这是我作为使用者无法直接表述的。这里我截取两张任务3关于代码的微调以及解释的图片：

最后，来谈谈我这次的收获。我认为这次任务中我最大的收获就在于更深入直观了解到了代码运行过程中的作用，以及Lora、VAE等作用，尤其是有无Lora的工作流运行对比，更是给我解答了之前自己玩耍摸索过程中的一些疑惑，我相信在未来我自己部署和继续探索AI生图的过程中，将会更加得“知其然，知其所以然”。遗憾的点在于，其实关于本次任务3的任务，我本人完成的并不是很好，尤其体现在训练自己的Lora模型上，我没有做到，这需要我后续再花费时间去学习。