【Stable Diffusion】软件原理傻瓜级理解

最新推荐文章于 2024-09-12 09:15:00 发布

AIGC阿道夫

最新推荐文章于 2024-09-12 09:15:00 发布

阅读量712

点赞数 30

文章标签： stable diffusion 人工智能 AI作画 ai绘画 AI AIGC 人工智能作画

本文链接：https://blog.csdn.net/text2203/article/details/140096979

版权

大家好我是阿道夫！目前市面上主流的AI绘图软件有两个：Stable Diffusion和Midjourney。

Stable Diffusion的优势在于开源免费、可以本地化部署、创作自由度很高，缺点是需要比较好的电脑配置，尤其是显卡；Midjourney的优势是操作简单方便，创作内容相当丰富，但是需要科学上网并且付费，目前的使用费大概在每月200多元左右。如果可以融入工作流，这个月费也不算高，毕竟它带来的效率是惊人的，当然前期想要了解玩一玩的，可以试试Stable Diffusion，关于具体的安装方法可以去看看B站的【秋葉aaaki】这个Up主的视频。

（注意：没有的安装包的同学可以通过文末扫描自行获取）

很多还没有接触过AI绘画的朋友会觉得这个东西很神秘，哪怕装好了软件也会看着一堆英文和参数而一头雾水。今天我就用最傻瓜的方式来讲述一下Stable Diffusion的工作原理和基本功能。

首先是关于Stable Diffusion的工作原理，就好比你现在想学画画，学梵高的风格，那么你肯定要先去看梵高的画，然后一幅幅的临摹。一幅画起码要临摹个一百遍吧，从一开始完全不像，到慢慢找到要领，要想画到出神入化以假乱真的地步，一个月的时间够短了吧。梵高一生有接近500幅画，全部学完大概四十年吧，然后你就可以开始接单画梵高风格的画了。当然，客户的要求肯定不是让你画一模一样的梵高《向日葵》，而是说我要一幅梵高的《西瓜》，并且考虑到你已经很熟练了，给你半个小时的时间画出来，应该不难吧。于是，你吭哧吭哧地画完，客户看完之后立马给了你一个大嘴巴子，说你这个画的是神马东西，立马再给我画一幅。然后你强忍着泪水继续画，好不容易画完了，客户看完之后略有所思，说这一稿还行，但是这个颜色不太好，你再用黄色、紫色、粉红色各微调一版给我。于是，你又花了两个小时，改了三稿给客户，客户看完沉吟了许久，说我可能不太喜欢梵高了，你给我来一幅毕加索风格的吧。。。。。。

于是，我打开了AI，花了一分钟的时间画完了这两幅画。

如果把上文中的你换成是AI，这大概就是AI绘画的逻辑了。你花了四十年的时间所学习的梵高风格，就相当于是Stable Diffusion的大模型——Checkpoint。

人们把成千上万的美术风格的作品练成一个模型放在AI里面，AI就能依照这个模型画出风格类似的作品。所以你想要画出符合你心意的作品，首先就是要选对合适的大模型。

大模型的下载，可以去咱们大名鼎鼎的C站（https://civitai.com/），有真实系的（Chillmixout）、有二次元的（anything）、有游戏CG风（ReV Animated）的等等，但是需要科学上网。

如果不会科学上网，也可以去启动器的界面直接下载模型，当然这里是看不见预览图的，但从名字你可能看不出这个模型是什么风格。

将下载的大模型放在根目录的这个文件夹下【……\models\Stable-diffusion】，我们就可以在左上角的模型列表中进行选择了。（看不到就点旁边的蓝色按钮刷新一下）。

旁边这个VAE，相当于是给模型增加一个提高饱和度的滤镜和一些局部上的细节微调。当然有的大模型本身就自带VAE，所以就不用再加了。

VAE可以直接在启动器里面下载，下载的VAE放在根目录的这个文件夹下【……\models\VAE】。

接下来要理解的一个概念是Embedding，这个功能相当于是一个提示词打包的功能。比如你想画一个娜美的人物形象，但是想要固定一个人物形象往往要几十条什么上百条提示词，比如性别、头发、脸型、眼睛、身材等等一大堆精确指向的词汇。

那这个时候，就有人将这些提示词整合到一起做成了一个Embedding文件，你只需要使用一个提示词，就可以直接引入这个人物形象进行创作了。

下载Embedding的地方同样是在C站，通过右上角的筛选Textual Inversion就可以找到，放在根目录下的embeddings文件夹里即可。

接下来，讲一讲最重要的这个LORA,有了LORA就可以将人物或者物品接近完美地复刻进图像中，这就有了极大的商用价值。

比如这个“墨心”的LORA，就可以把你的图片变成水墨风格。

这个盲盒LORA可以生成这种2.5D的卡通小人角色。

或者是一些明星角色的LORA，直接生成真人形象。

还有知名的动漫角色，由于LORA其极其强大的功能，所以在使用上，大家需要有很强的版权和法律意识，所谓能力越大、责任越大，玩得太花，小心律师函到你家。

总结一下，LORA的强大，无论是画风，还是人物、物品，或者是动作姿态，都是可以固定下来，它所做的就是提炼图片特征。LORA和Embedding的区别一是在于体量上，Embedding的文件只有几十kb，而LORA的文件通常有几十上百兆，所以LORA的文件所承载的信息量是要远大于Embedding，尤其是在还原真人物品时，LORA的细节精度是Embedding无法比拟的。

下载的LORA放在根目录的这个文件夹下【……\models\Lora】，使用的时候点击这个红色的小书，找到LORA的选项卡，任意点击一个想要的LORA就可以加载进去了。