Stable Diffusion 文生图全网最细详解

最新推荐文章于 2025-04-27 11:55:46 发布

大模型产品经理

最新推荐文章于 2025-04-27 11:55:46 发布

阅读量925

点赞数 16

文章标签： stable diffusion 人工智能 midjourney AI绘画数据库

本文链接：https://blog.csdn.net/bagell/article/details/138561669

版权

从这一节开始开始我们正式开始学习 SD (Stable Diffusion)

第一节我们从 Web UI 开始讲解

基于使用最多的文生图模块来讲解

一、WEB UI 页面

如果你使用是SD，

那么你进入到 web ui 页面后可以看到下面这个页面

其中：

模型选择： 模型对于 SD 绘图来说非常重要，不同的模型类型、质量会很大程度的决定最终的出图效果（模型相关的课程会在后面细讲）
Prompt区： 如果你使用过 ChatGPT 你应该知道 Prompt 是什么。说的直白点就是你想让 SD 帮忙生成什么样的图，反向 Prompt 就是你不想让 SD 出生的图里有这些东西。后续课程也会详细的讲解如何更好的编写 Prompt
功能栏： 包括了常见的文生图、图生图、模型获取、模型训练等功能。不同的功能页面也不同，这一节课，我们先针对最长使用的文生图模块页面来讲解
采样区： 采用什么样的绘画方式算法，以及“画多少笔” 来绘图。一定程度上决定出图的质量
调参区： 设置分辨率、每次出图的批次、出图抽象性（和 prompt 关联性的程度）
脚本区： 通过配置脚本可以提高效率；比如批量出图、多参数的出图效果比较（课程中会大量使用）

接下来会进一步的介绍每个模块的使用。

二、模型选择

直白点说，

模型就是“模型训练师”们通过大量的图片进行训练得到的具备某种风格的模型。

我们使用某个模型后，

后续在出图的整体方向就会更靠近这个模型的风格。

你安装好之后默认可以看到两个模型

anything ：二次元风格模型
Deliberate：真人风格模型

三、Prompt 区

如果你学习过如何更好的编写 ChatGPT 的 prompt，

你会发现 Prompt 的编写都会遵守一定的范式，

这样得出来的效果才可能更贴近我们的想法。

选择完模型之后，

我们就可以给予这个模型风格，

告诉 SD prompt 画出什么样的图。

比如：直接告诉 SD 画一个女孩

虽然能出来一个女孩，

emmm… 但是这个质量吧，还是很差的，

实事上呢，

是我们的 prompt 写的太差劲了导致的

如果我们完善一点 (丰富一些 prompt ）

会发现效果质量立竿见影；而我们只是加入了一些通用的 prompt 提示语

正向的 prompt： 说白就是要高画质、更多的细节

 (masterpiece:1,2), best quality, masterpiece,best detail face

反向的 prompt： 不要少胳膊断腿，要是一个正常的图

(((NSFW))), (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

其中的一些细节，

比如提示语的语法格式、公式、权重、模版和tag大全，我们会在 prompt 和 tag 课程中细讲。

有个比较有意思的反向 tag 叫 NSFW(no sutiable for work)

一般情况尽量把这个加入到反向词中，特别是工作场合。不然惊喜可能随时都会出现（各种18+）…

想想在工作的时候，你信誓旦旦给你的同事来一张漂亮的小姐姐，结果…

如果你不太信的话，可以直接把 NSFW 放在正向里面试试…

四、采样区

采样区做的事就是，我们该用什么样的采样方式来画，画多少笔（多细致）

1.采样方式

由于采样方式的原理比较深奥，涉及到很多的算法，我直接给结论，

我更加推荐使用下面这三个：

Euler a
DDIM
DPM ++ 2M Karras

我们可以试试这三个不同采样方法的效果

整体的质量是非常好的，出图速度相对也会快很多

2. 采样步数

采样步数相当于是作画的时候画多少笔。

同样的也是先给结论，建议在 20-40之间，出图效果会更好。并不是越高越好

来看看效果

会发现步数到了60其实也还好，

但同时需要考虑到性价比，步数越高也就意味着耗费的资源会越多，对机器的配置会更高。

所以一般我们的步数设置到 20-40之间就可以了。

接着上节课，我们继续讲解 Stable Diffusion Web UI 的使用。

这节课我们会讲解面部修复，高清修复和调参区的内容

五、脸部修复

面部修复的适用在画真人、三次元的场景，特别是在画全身的时候

一般在画全身，由于脸部占比的空间比较小，那么绘制出来的效果就会比较差

1.面部修复

SD 支持直接一键进行脸部修复，但这效果可能不是非常好，也不是最终方案

举个例子：

模型选择：Realistic Vision V2.0 （如何下载模型可以参照课程

在没有开启面部修复的情况，脸部非常不自然（特别是在画全身的时候）

开启面部修复后：

出图的效果，脸部就自然了非常多

2.高清修复

高清修复的原理相当于是把原分辨率的图放大进行绘制，

绘制结束后再做一个还原，从而达到脸部的优化。

这样对于电脑的资源消耗会更大。

其中有几个参数可以来说说：

放大算法： 这块可以直接给结论；大家如果要改善真人、三次元的脸部直接使用 R-ESRGAN 4x+ ；如果是二次元的使用 R-ESRGAN 4x+ Anime6B
高清修复采样次数： 建议直接给0，表示直接使用原有出图的采样步数即可
重绘幅度(Denoising)： “放飞程度“，在修复的时候和原图的相似关系，越小表示越相似，越大最后的图就和原图没啥关系了
放大倍率： 一般给到2倍即可。太大基本上电脑配置吃不消

我们可以来看看使用高清修复后优化的样子：