＜鲁不懂AI了＞Stable Diffusion WEB UI的微调（基础知识）

最新推荐文章于 2024-09-30 14:16:32 发布

鲁不动AI了

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量370

点赞数 4

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/virtuous_lu/article/details/142148283

版权

一、模型介绍

1.主模型（Checkpoint）

2.文本嵌入模型（Embeddings）

二、参数介绍

前言

上文我们直接用SD生成了一张女人图，但是效果非常的差，所以我们要对模型进行微调，方能生成我们想要的图像，本文主要就是介绍SD的微调基础知识，后面会有微调的实践操作。

一、模型介绍

LoRA是为了处理大语言模型微调而引入的一种高效的调参技术。理论上我们可以通过微调参数，达到很好的效果

1.主模型（Checkpoint）

主模型是Stable Diffusion Web UI的核心，一般采用的是V1-5-pruned-emaonly模型，其在CFG采样尚有着提升。

Checkpoint文件时在模型训练过程中定期保存的状态快照，由模型参数和优化器状态等组成。Checkpoint文件可以视为是一种风格滤镜。

2.文本嵌入模型（Embeddings）

将输入的数据通过Embeddings模型，转换成向量，以便模型能更方便的处理。

Embeddings模型可以控制人物的动作和特征，或者生成特定的画风。

弊端就是由于Embeddings没有改变原模型的权重参数，所以它只能生成已知的人物角色或者画面。

3.LoRA

LoRA是用来对大模型进行参数微调的方法，可以使物体更加细节

二、参数介绍

1.提示词

提示词是用来控制生成内容的，分为提示词和反向提示词。

提示词：又称正向提示词，用来指导生成图像的关键词，以逗号分割。

反向提示词，定义不想在图像看到的东西，如“下半体”。

有的时候我们不知道如何形容一张图像，比如上次文章最后的女人，很抽象，但是我们有办法将图像反向推出提示词。

方法一是在SD中加入wd14-tagger模型插件，它可以将图像反推成提示词。方法二是我们可以借助GPT的方法，将图片上传给GPT或者一大段未断词的话，将他们转换成提示词，也是可以的。

2.采样

采样方法（Sampler）：用来降噪的，使图像更清晰。下面介绍几种常用的模型。

DPM++2M：可在各种分辨率下提供更多的细节，如渲染小图的全身效果，但是采样速率慢。

DPM++2M karras：可以生成高质量图像

Euler a：当这个值适中时，可以捕获图像中的细节和纹理，但是这个值过高时，会出现过拟合的效果，还会出现噪点。

DDIM：快速生成高质量的图像。

采样效果除了和采样的方法有关，还有采样的迭代步数有关，就是图像图像从模糊到清晰所需要降噪过程的次数。一般来说，迭代步数越高，图像细节就会越精致，但是过高就不一定带来显著的效果，反而会浪费算力。

3.其他参数

（1）图片尺寸可以决定图像的细腻程度

（2）高清修复

（3）生成批次和每批的数量

（4）提示词的相关性

（5）随机种子可以决定生成的随机性

总结

本文对Stable Diffusion Web UI的基础知识进行了讲解，下节我们将实践，如何进行调参已经调参的效果如何？

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

鲁不动AI了 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。