第十四：Stable Diffusion+WebUI工具

卢卡平头哥

已于 2024-10-18 10:28:19 修改

阅读量368

点赞数 3

分类专栏： AIGC 文章标签： stable diffusion 人工智能

于 2024-10-10 15:24:59 首次发布

本文链接：https://blog.csdn.net/hyq413950612/article/details/142822494

版权

AIGC 专栏收录该内容

20 篇文章

订阅专栏

在这里插入图片描述

一.AIGC必备工具

在这里插入图片描述

1.Stable Diffusion出图的质量很大程度上由模型和Prompt提示词所决定
2.希望生成各种各样的图片，那么就需要下载各种不同模型多多尝试

3.通过模型可生成不同风格的绘图作品，那么去哪里下载到Stable Diffusion的模型呢？

二.推荐的Stable Diffusion模型下载网站

1.Civitai.com：俗称C站，是最受欢迎的AI图像模型网站之一(但国内需要魔法)

2.Huggingface.co：界面比较朴素，模型也非常丰富，好处是国内可以直接访问

3.Liblibai.com：国内较大的AI模型分享网站，大多搬运自C站，但也有积累到部分人气的原创国产模型

4.liandange.com：国内AI模型分享网站，主要也是搬运C站资源

三.各种AI模型类型说明

1.Checkpoint大模型/底模型/主模型

1.1.Checkpoint模型指是SD能够直接绘图的基础模型，因此被称为大模型、底模型
1.2.在WebUI上就叫它Stable Diffusion模型
1.3.安装完SD软件后，必须搭配主模型才能使用
1.4.不同的主模型，其画风和擅长的领域都会有不同侧重

2.LoRA模型

2.1.目前最热门的微调模型，它可在原有大模型的基础上，对模型进行微调
2.2.从而能够生成特定的人物、物品或画风
2.3.比如很火的各种专门生成亚洲网红脸的真人美女LoRA模型
2.4.它们通常体积不会太大，且必须与Checkpoint模型一起使用

3.VAE美化模型 (变分自编码器)

3.1.VAE中文叫变分自编码器
3.2.主要作用就是给图片加滤镜以及微调，有各种比如二次元、写实风格的不同VAE
3.3.一些大模型会自带VAE(比如Chilloutmix)。如果再加VAE则可能让图片效果变得混乱

4.Embedding/Textual lnversion/文本反转模型/Hypernetworks

4.1.Embeddings/Textual lnversion文本反转，必须与Checkpoint模型一起使用
4.2.通过仅使用几张图像，就能让模型学习新的风格和概念，主要用于个性化图像生成

4.3.Embeddings由于训练简单，文件小，因此也颇受欢迎
4.3.1.而且安装后，只需要在Prompt提示词中提到它就相当于调用，很方便
4.3.2.不过由于Embeddings训练集较小，因此出图往往做不太到“形神兼似”
4.3.3.所以大多数人还是更喜欢使用LoRA模型

5.LyCORIS模型

5.1.LyCORIS可看作是优化版的LoRA微调模型，只是实现算法不同
5.2.在SD实现更多的参数有效微调，层级更多
5.3.因此可理解为是算法更优化更简洁更节约训练资源的微调模型
5.3.1.实际出图效果似乎也都比较好

6.ControlNet模型

6.1.主要用于控制图片的主体结构、构图、线条、边界等
6.2.比如控制人物的动作、通过简单的线稿、原图来生成对应构图的AI作品

四.下载并安装Stable Diffusion WebUI

1.这个就不多讲了，大家登上github，拷贝下来直接启动就行
2.但是确保你有大于8G的显存，否则在使用中会非常慢
2.1.并且可能会出现某些功能无法使用的问题

五.txt2img

1.首次启动GUI时，会看到txt2img标签
1.1.这标签执行Stable Diffusion的最基本功能：将文本提示转换成图像

2.基本用法

2.1.如果第一次使用webUI，那么下面这几个参数是一定需要注意的

在这里插入图片描述

2.2.首先是checkpoint，这个模型决定了图片的基础风格
2.2.1.可以在提示词部分，输入希望生成的图片描述
2.2.2.在反向提示词部分，可以输入不想在图片上看到的内容

2.3.宽度和高度：输出图像的尺寸
2.3.1.当使用v1模型时，应该将至少一边设置为512像素
2.3.2.例如，将宽度设置为512，高度设置为768，以获得一个2:3的纵向图像

2.4.批处理大小：每次生成的图像数量
2.4.1.在测试提示时，您至少想生成几个图像，因为每个图像都会有所不同
2.4.2.最后，点击生成按钮。稍等片刻，您就会得到您的图像

在这里插入图片描述

2.5.图像生成参数：在上面生成图像的底部，可以看到关于图片生成的具体信息

Prompt: a girl,0lg4kury, Negative prompt: (unhealthy-deformed-joints:2),(unhealthy-hands:2),easynegative,ng_deepnegative_v1_75t,(worst quality:2),(low quality:2),(normal quality:2),lowres,bad anatomy,badhandv4,((extra limbs)),((extra legs)),((fused legs)),((extra arms)),((fused arms)),normal quality,((monochrome)),((grayscale)),((watermark)),uneven eyes,lazy eye,bad-hands-5,(((mutated hand))), Steps: 20,

Sampler: DPM++ 2M Karras,
CFG scale: 7,
Seed: 1650696303,
Size: 512x512,
Clip skip: 2

2.6.采样步骤：去噪过程的采样步骤数
2.6.1.步数越多越好，但也需要更长时间。25步适用于大多数情况

2.7.宽度和高度：输出图像的尺寸
2.7.1.对于v1模型，应该至少将一侧设置为512像素
2.7.2.例如，将宽度设置为512，高度设置为768，以获得一个2:3的竖向图像
2.7.3.使用v2-768px模型时，应至少将一侧设置为768

2.8.批次计数：运行图像生成管道的次数

2.9.批次大小：每次运行管道生成的图像数
2.9.1.生成的图像总数等于批次计数乘以批次大小
2.9.2.通常您会更改批次大小，因为这样更快
2.9.3.只有在遇到内存问题时才会更改批次计数

2.10.CFG scale分类器无指导比例：是个参数，用于控制模型应该多大程度上遵循您的提示

1 - 大部分忽略您的提示
3 - 更具创造性
7 - 在遵循提示和自由之间取得良好的平衡
15 - 更加遵循提示
30 - 严格遵循提示

2.11.seed：是在潜在空间中用于生成初始随机张量的种子值
2.11.1.从实际情况来看，它可以控制图像的内容

2.11.2.每个生成的图像都有自己的种子值
2.11.3.如果在webUI中把seed设置为-1，它将使用一个随机的种子值
2.11.4.固定种子的一个常见原因是为了固定图像的内容并调整提示
2.11.5.比如说，我使用以下提示生成了一张图像

a girl in the photo,0lg4kury,dresses,in the city,

在这里插入图片描述

2.11.6.觉得这张照片不错，但是还想给她添加点东西，比如手镯
2.11.7.那么要做的就是在图片下面找到它的seed
2.11.8.然后规定这个值，再在prompt中添加bracelet

在这里插入图片描述

2.11.9.可以看到它的seed值是1721867153， 把这个值复制到种子值输入框中

2.11.10.或者使用回收按钮来复制种子值

在这里插入图片描述

2.11.11.现在在提示中添加术语“手镯”

a girl in the photo,0lg4kury,dresses,in the city,bracelet

2.11.12.人物和场景大体上是没有变化的，只不过这次给人物多加了一个手镯

在这里插入图片描述

2.12.extra seed：勾选extra选项将显示额外种子菜单

在这里插入图片描述

2.13.这个extra seed是做什么用的呢？

2.13.1.在上面界面上，可以看到有两个非常重要的变量
2.13.1.1.分别是Variation seed和Varation strength

2.13.2.Variation seed: 想要使用的额外种子数值

2.13.3.Varation strength: 表示的是在种子和变化种子之间的插值程度
2.13.3.1.将其设置为0表示使用 种子 的数值。将其设置为1使用 变化种子 数值

2.14.可能朋友们还是不明白这个参数到底是做什么，那么来举个例子

2.14.1.上面已经生成了一张图片了，他的seed是1721867153
2.14.2.那么修改这个seed，改成1721867155，再生成一张图片

在这里插入图片描述

2.14.3.因为seed改变了，所以这两幅图片的差距有点大

2.14.4.extra seed的作用就是可以给一个合并这两个图的方法

2.14.5.想要生成这两张图片的混合图像
2.14.5.1.将种子设为1721867153，变化种子设为1721867155
2.14.5.2.并调整变化强度在0和1之间
2.14.5.3.在下面的实验中，变化强度允许你在两个种子之间产生图像内容的过渡
2.14.5.4.当变化强度从0增加到1时，女孩的姿势和背景逐渐改变

在这里插入图片描述

2.14.6.即使使用相同的种子，如果更改图像大小，图像也会发生显著变化

2.14.6.1.还是这个seed：1721867153。如果现在把长宽变成：512x768，看看生成的图片

在这里插入图片描述

3.人脸修复

3.1.SD webUI提供一个人脸修复的选项，可以专门用于修复人脸上的缺陷

3.2.修复前

在这里插入图片描述

3.3.修复后

在这里插入图片描述

3.4.对比看看，效果还是很明显的

3.5.等等，有同学会问，restore face? 有这个选项吗？ 怎么没看到？

3.6.别急，在使用之前需要到settings–user interface-Quicksettings list中把face_restoration加上去

在这里插入图片描述

3.7.加完之后，重启UI，回到txt2img选项卡
3.7.1.勾选Restore Faces。人脸修复模型将应用于生成的每张图片

3.8.如果发现应用影响了人脸上的风格，可以选择关闭人脸修复

在这里插入图片描述

4.Tiling：可以使用Stable Diffusion WebUI创建类似壁纸的重复图案

4.1.要启用tiling，还是在settings–user interface-Quicksettings list 中把tiling加上去

在这里插入图片描述

4.2.现在text2img选项中看到tiling选项，勾选上它，然后画一下花，看看什么效果

在这里插入图片描述

4.3.可以看到这幅画是一个完美的平铺图片
4.3.1.可以从上下左右任何方向拼接这个图片，都可以得到完美的图像

4.4.当然，生成的图片可以是任何东西，比如无尽的阶梯

在这里插入图片描述

5.高清修复Hires.fix：是在图像生成领域常见的概念，特别是在使用稳定扩散模型时
5.1.这个选项的目的是为克服模型原生输出分辨率的限制，从而生成更大尺寸、更高质量的图像

5.2.稳定扩散模型默认的输出分辨率通常是512像素（对于某些v2型号是768像素）
5.2.1.这个限制是由模型的设计和训练数据集决定的
5.2.2.场景，如打印、大尺寸展示或者高清屏幕显示，这样的分辨率可能不够用

5.3.为什么不直接设置更高的原生分辨率？
5.3.1.直接提高模型的原生输出分辨率(例如，将宽度和高度设置为1024像素)可能会导致一些问题
5.3.2.比如构图失真或者生成异常图像（例如，图像中出现多余的头或其他元素）
5.3.3.这是因为模型在训练过程中学习到特定的输出尺寸
5.3.4.直接改变这个尺寸可能会导致模型无法正确地映射图像特征到新的分辨率上

5.4.先看下hires.fix的参数设置

在这里插入图片描述

5.5.upscaler上采样器：上采样器是图像处理中用于放大图像的工具。有很多采样器可以选择

5.5.1.其中latent是一种比较特殊的采样器，它在所谓的“潜在空间”中工作
5.5.2.潜在空间用于表示图像生成模型在生成图像之前所处的中间状态
5.5.3.这类上采样器在图像生成的采样步骤之后应用
5.5.4.即在模型已经根据文本提示生成了一个初步的图像表示后，再对其进行放大处理

5.5.5.潜在上采样器的选项通常包括各种基于数学和机器学习原理的方法
5.5.5.1.它们可以在不改变图像构图的情况下增加图像的尺寸

5.6.高清步骤：仅适用于latent采样器

5.6.1.它指的是在放大潜在图像后进行的额外采样步骤的数

5.6.2.更多的高清步骤意味着模型将有更多的机会细化图像的细节
5.6.3.可能产生更清晰、更高质量的图像

5.7.去噪强度：仅适用于latent采样器

5.7.1.它控制在执行高清采样步骤之前添加到潜在图像的噪声
5.7.2.添加一定量的噪声可以帮助模型更好地学习和恢复图像的细节
5.7.3.太低可能无法有效恢复细节，太高则可能导致图像中出现不必要的伪影或失真

5.8.与传统的上采样器（如ESRGAN）相比，潜在上采样器不容易产生上采样伪影
5.8.1.这些伪影可能包括锐化过度、边缘不自然等现象，它们会影响图像的视觉质量

5.9.由于潜在上采样器是在图像生成的后期阶段工作
5.9.1.它能够保持与原始稳定扩散模型生成的图像的风格一致性
5.9.2.这意味着放大后的图像将更忠实于原始艺术风格和视觉特征
5.9.3.潜在上采样器在潜在空间中进行操作，这是一个中间表示
5.9.4.允许在不直接修改像素值的情况下对图像进行调整
5.9.5.这种方法可以更自然地处理图像的细节和结构

5.10.但是潜在上采样器可能会在一定程度上改变原始图像
5.10.1.这种变化的程度取决于去噪强度的设置

5.10.2.较高的去噪强度可能会导致图像细节的丢失或模糊
5.10.2.1.而较低的去噪强度可能无法充分恢复图像的清晰度

5.11.放大因子控制图像将放大多少倍
5.11.1.例如，将其设置为2会将一个512x768像素的图像放大为1024x1536像素

5.12.图像操作按钮：在生成图像之后，你会发现一排按钮,用于对生成的图像执行各种功能

在这里插入图片描述

5.12.1.打开文件夹: 打开图像输出文件夹。可能并非适用于所有系统

5.12.2.保存: 保存一张图像。点击后，按钮下方将显示下载链接
5.12.2.1.如果选择图像网格，将保存所有图像

5.12.3.压缩: 压缩图像以便下载

5.12.4.发送到img2img: 将选定的图像发送到img2img选项卡

5.12.5.发送到修复: 将选定的图像发送到img2img选项卡中的修复选项

5.12.6.发送到额外功能: 将选定的图像发送到额外功能选项卡

6.Img2img：img2img的作用就是从一张图片来创建另外一张图片

6.1.步骤1：将基本图像拖放到img2img页面上的img2img标签中

在这里插入图片描述

6.2.步骤2：调整宽度或高度，使新图像具有相同的宽高比
6.2.1.应该在图像画布中看到一个矩形框，表示宽高比

6.3.步骤3：设置采样方法和采样步数
6.3.1.通常使用DPM++ 2M Karass和20步

6.4.步骤4：将批处理大小设置为4
6.4.1.一次多生成几张图可以挑选出你更满意的图片

6.5.步骤5：为新图像编写提示
6.5.1.将使用以下提示: a girl, sea

6.6.步骤6：点击生成按钮生成图像。调整去噪强度并重复
6.6.1.不同的去噪强度可以生成不同的图片

6.7.这是0.75的去噪强度

在这里插入图片描述

6.8.这是0.5的去噪强度

在这里插入图片描述

6.9.可以看到0.75中人物已经发生了变化
6.9.1.但是在0.5中，人物基本上是保持不变的，同时还把背景换成了大海

6.10.img2img页面里面的许多设置与txt2img是一致的，但是添加新的选项

6.10.1.Resize mode：如果新图像的宽高比与输入图像不同，有几种方法可以解决差异
6.10.1.1.现在原图是1024x1024,现在想生成的图是768x1024

6.10.2.Just resize将按比例缩放输入图像以适应新图像尺寸
6.10.2.1.它会拉伸或挤压图像。可以看到图片发生了挤压

在这里插入图片描述

6.10.3.Crop and resize将新图像画布适应到输入图像中

6.10.3.1.不适合的部分将被移除。原始图像的宽高比将被保留

在这里插入图片描述

6.10.4.Resize and fill将输入图像适应到新图像画布中

6.10.4.1.多余的部分将填充为输入图像的平均颜色。宽高比将被保留

在这里插入图片描述

6.10.5.Just resize (latent upscale)类似于Just resize
6.10.5.1.但缩放是在潜在空间中进行的。可以使用大于0.5的去噪强度以避免模糊图像

6.10.6.去噪强度：控制图像的变化程度。如果设置为0，则不会发生任何变化
6.10.6.1.如果设置为1，则新图像与输入图像无关
6.10.6.2.0.75是一个不错的平衡点，可以自行进行探索

7.sketch：webUI中的sketch的作用是把素描图转换成真实的图片

7.1.步骤1：转到img2img页面上的素描选项卡

7.2.步骤2：将背景图像上传到画布上

7.3.步骤3：写一个提示：a girl

7.4.步骤5：点击生成

在这里插入图片描述

7.5.当然，素描的作用不限于此，还可以对图片进行创意的修改

7.5.1.比如现在有这样一幅图片

在这里插入图片描述

7.5.2.这是一个美女，想把她的衣服变成一个V领的可以可以呢？

7.5.3.在sketch界面，选择吸管工具，吸取皮肤的颜色，然后涂抹到衣服上，点击生成

在这里插入图片描述

8.Inpaint：在img2img选项卡中，也许最常用的功能就是图像修复

8.1.如果在txt2img选项卡中生成了图像，但是有小瑕疵，想要重新生成它
8.1.1.那么就可以把这张图片发送到Img2Img中

8.2.假设在txt2img选项卡中生成了下面的图像
8.2.1.然后想给这个图片上加上个项链，那么可以在需要项链的位置添加上mask，提示词添加：necklace

在这里插入图片描述

8.3.当然，可以通过调整降噪强度来观察不同数值对最后结果的变化

8.3.1.在修复图像中进行缩放和平移
8.3.2.在修复图像的小区域时是否遇到困难？
8.3.3.将鼠标悬停在左上角的_信息图标_上，即可查看缩放和平移的键盘快捷键

在这里插入图片描述

Alt + 滚轮 / Opt + 滚轮：进行放大和缩小
Ctrl + 滚轮：调整画笔大小
R：重置缩放
S：进入/退出全屏模式

8.3.4.按住F键并移动鼠标进行平移

8.3.5.这些快捷键在Sketch和 Inpaint Sketch中同样适用 ### Inpaint sketch

8.3.5.1.Inpaint sketch结合了Inpaint和sketch功能
8.3.5.2.它让可以像在sketch标签页中那样绘画，但只影响mask部分的区域
8.3.5.3.其他的区域保持不变

在这里插入图片描述

9.Inpaint upload：允许您上传一个独立的蒙版文件，而不是手动绘制它 ### Batch

9.1.使用批处理可以对多张图片进行修复或进行图像转换 ### 从图像中获取Promot

9.2.Interogate CLIP 按钮会对上传到 img2img 选项卡的图像进行猜测，并生成提示
9.2.1.当想生成一个不知道提示词的图像时，这将非常有用

步骤 1：转到 img2img 页面

步骤 2：将图像上传到 img2img 选项卡

步骤 3：点击 Interrogate CLIP 按钮

在这里插入图片描述

9.3.在提示文本框中会显示这个图片的提示词

9.4.Interrogate DeepBooru 按钮提供类似的功能，但它是专为动漫图像设计的 ## 图像放大

9.5.之前在文生图里面提到了有一个Hire.fix的功能可以实现图像放大的效果

9.6.如果不是在文生图中，webUI也提供非常有用的图像放大功能。可以在Extras tab中找到它

9.7.基本用法

步骤1：导航到extras页面

步骤2：上传图像到图像画布

步骤3：在调整大小标签下设置按比例缩放因子。新图像将会按比例放大

步骤4：选择Upscaler 1。比较通用AI图像放大器是R-ESRGAN 4x+

步骤5：点击生成。您应该在右边得到一张新的图像

在这里插入图片描述

9.8.图像放大器的种类：AUTOMATIC1111默认提供了一些图像放大器

9.9.Lanczos和Nearest是老式图像放大器
9.9.1.它们的功能不是很强大，但行为是可预测的

9.10.ESRGAN，R-ESRGAN，ScuNet和SwinIR是AI图像放大器
9.10.1.它们可以通过创造内容来增加分辨率

9.11.在extra中还有一个upscaler2,通过使用它，可以结合两个图像放大器的效果
9.11.1.通过旁边的visibility滑块来控制混合的程度

10.人脸修复：在放大过程中，可以选择进行人脸修复

10.1.有两个选项可供选择：GFPGAN 和CodeFormer
10.2.勾选他们中的任何一个就可以开启人脸修复功能了

在这里插入图片描述

11.PNG Info：如果AI图像是PNG格式，可以尝试查看提示和其他设置信息是否写在了PNG元数据字段中。

11.1.首先，将图像保存到本地。 打开AUTOMATIC1111 WebUI。导航到PNG信息页面

在这里插入图片描述

11.2.将图像拖放到左侧的源画布上

在这里插入图片描述

11.3.在右边你会找到关于提示词的有用信息
11.3.1.还可以选择将提示和设置发送到txt2img、img2img、inpainting
11.3.2.或者Extras页面进行放大

11.4.安装扩展

在这里插入图片描述

11.5.要在AUTOMATIC1111 Web UI中安装扩展，请按照以下步骤进行：

11.5.1.正常启动AUTOMATIC1111 Web UI

11.5.2.转到扩展页面

11.5.3.点击从URL安装选项卡

11.5.4.在扩展git仓库的URL字段中输入扩展的URL

11.5.5.等待安装完成的确认消息

11.5.6.重新启动AUTOMATIC1111
11.5.6.1.提示：不要使用“应用并重启”按钮。有时不起作用
11.5.6.2.完全关闭并重新启动Stable Diffusion WebUI

11.6.另外，在已安装的扩展列表中，你也可以点击check for updates来对扩展进行升级

在这里插入图片描述