<鲁不懂AI了>Stable Diffusion WEB UI的微调(基础知识)


前言

上文我们直接用SD生成了一张女人图,但是效果非常的差,所以我们要对模型进行微调,方能生成我们想要的图像,本文主要就是介绍SD的微调基础知识,后面会有微调的实践操作。

一、模型介绍

        LoRA是为了处理大语言模型微调而引入的一种高效的调参技术。理论上我们可以通过微调参数,达到很好的效果

1.主模型(Checkpoint)

         主模型是Stable Diffusion Web UI的核心,一般采用的是V1-5-pruned-emaonly模型,其在CFG采样尚有着提升。

        Checkpoint文件时在模型训练过程中定期保存的状态快照,由模型参数和优化器状态等组成。Checkpoint文件可以视为是一种风格滤镜。

2.文本嵌入模型(Embeddings)

        将输入的数据通过Embeddings模型,转换成向量,以便模型能更方便的处理。

        Embeddings模型可以控制人物的动作和特征,或者生成特定的画风。

        弊端就是由于Embeddings没有改变原模型的权重参数,所以它只能生成已知的人物角色或者画面。

3.LoRA

        LoRA是用来对大模型进行参数微调的方法,可以使物体更加细节

二、参数介绍

1.提示词

        提示词是用来控制生成内容的,分为提示词和反向提示词。

        提示词:又称正向提示词,用来指导生成图像的关键词,以逗号分割。

        反向提示词,定义不想在图像看到的东西,如“下半体”。

        有的时候我们不知道如何形容一张图像,比如上次文章最后的女人,很抽象,但是我们有办法将图像反向推出提示词。

        方法一是在SD中加入wd14-tagger模型插件,它可以将图像反推成提示词。方法二是我们可以借助GPT的方法,将图片上传给GPT或者一大段未断词的话,将他们转换成提示词,也是可以的。

2.采样

        采样方法(Sampler):用来降噪的,使图像更清晰。下面介绍几种常用的模型。

        DPM++2M:可在各种分辨率下提供更多的细节,如渲染小图的全身效果,但是采样速率慢。

        DPM++2M karras:可以生成高质量图像

        Euler a:当这个值适中时,可以捕获图像中的细节和纹理,但是这个值过高时,会出现过拟合的效果,还会出现噪点。

        DDIM:快速生成高质量的图像。

        采样效果除了和采样的方法有关,还有采样的迭代步数有关,就是图像图像从模糊到清晰所需要降噪过程的次数。一般来说,迭代步数越高,图像细节就会越精致,但是过高就不一定带来显著的效果,反而会浪费算力。

3.其他参数

(1)图片尺寸可以决定图像的细腻程度

(2)高清修复

(3)生成批次和每批的数量

(4)提示词的相关性

(5)随机种子可以决定生成的随机性


总结

本文对Stable Diffusion Web UI的基础知识进行了讲解,下节我们将实践,如何进行调参已经调参的效果如何?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鲁不动AI了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值