Stable Diffusion 文生图全网最细详解

从这一节开始开始我们正式开始学习 SD (Stable Diffusion)

第一节我们从 Web UI 开始讲解

基于使用最多的 文生图 模块来讲解

一、WEB UI 页面

如果你使用是SD,

那么你进入到 web ui 页面后可以看到下面这个页面

img

其中:

  • 模型选择: 模型对于 SD 绘图来说非常重要,不同的模型类型、质量会很大程度的决定最终的出图效果(模型相关的课程会在后面细讲)
  • Prompt区: 如果你使用过 ChatGPT 你应该知道 Prompt 是什么。说的直白点就是你想让 SD 帮忙生成什么样的图,反向 Prompt 就是你不想让 SD 出生的图里有这些东西。后续课程也会详细的讲解如何更好的编写 Prompt
  • 功能栏: 包括了常见的 文生图、图生图、模型获取、模型训练等功能。不同的功能页面也不同,这一节课,我们先针对最长使用的 文生图 模块页面来讲解
  • 采样区: 采用什么样的绘画方式算法,以及“画多少笔” 来绘图。一定程度上决定出图的质量
  • 调参区: 设置分辨率、每次出图的批次、出图抽象性(和 prompt 关联性的程度)
  • 脚本区: 通过配置脚本可以提高效率;比如批量出图、多参数的出图效果比较(课程中会大量使用)

接下来会进一步的介绍每个模块的使用。

二、模型选择

直白点说,

模型就是“模型训练师”们通过大量的图片进行训练得到的具备某种风格的模型。

我们使用某个模型后,

后续在出图的整体方向就会更靠近这个模型的风格。

你安装好之后默认可以看到两个模型

  • anything : 二次元风格模型
  • Deliberate:真人风格模型

三、Prompt 区

如果你学习过如何更好的编写 ChatGPT 的 prompt,

你会发现 Prompt 的编写都会遵守一定的范式,

这样得出来的效果才可能更贴近我们的想法。

选择完模型之后,

我们就可以给予这个模型风格,

告诉 SD prompt 画出什么样的图。

比如:直接告诉 SD 画一个女孩

img

虽然能出来一个 女孩,

emmm… 但是这个质量吧,还是很差的,

实事上呢,

是我们的 prompt 写的太差劲了 导致的

如果我们完善一点 (丰富一些 prompt )

会发现效果质量立竿见影;而我们只是加入了一些通用的 prompt 提示语

img

  • 正向的 prompt: 说白就是要高画质、更多的细节
 (masterpiece:1,2), best quality, masterpiece,best detail face 

  • 反向的 prompt: 不要少胳膊断腿,要是一个正常的图
(((NSFW))), (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

其中的一些细节,

比如 提示语的语法格式、公式、权重、模版和tag大全,我们会在 prompt 和 tag 课程中细讲

有个比较有意思的 反向 tag 叫 NSFW(no sutiable for work)

一般情况尽量把这个加入到反向词中,特别是工作场合。不然惊喜可能随时都会出现(各种18+)…

想想在工作的时候,你信誓旦旦给你的同事来一张漂亮的小姐姐,结果…

如果你不太信的话,可以直接把 NSFW 放在正向里面试试…

四、采样区

采样区做的事就是,我们该用什么样的采样方式来画,画多少笔(多细致)

1.采样方式

由于采样方式的原理比较深奥,涉及到很多的算法,我直接给结论,

我更加推荐使用下面这三个:

  • Euler a
  • DDIM
  • DPM ++ 2M Karras

我们可以试试这三个不同采样方法的效果

img

整体的质量是非常好的,出图速度相对也会快很多

2. 采样步数

采样步数相当于是作画的时候画多少笔。

同样的也是先给结论,建议在 20-40之间,出图效果会更好。并不是越高越好

来看看效果

img

会发现步数到了60其实也还好,

但同时需要考虑到性价比,步数越高也就意味着耗费的资源会越多,对机器的配置会更高。

所以一般我们的步数设置到 20-40之间就可以了。

接着上节课,我们继续讲解 Stable Diffusion Web UI 的使用。

这节课我们会讲解 面部修复,高清修复和调参区的内容

五、脸部修复

面部修复的适用在画真人、三次元的场景,特别是在画全身的时候

一般在画全身,由于脸部占比的空间比较小,那么绘制出来的效果就会比较差

1.面部修复

SD 支持直接一键进行脸部修复,但这效果可能不是非常好,也不是最终方案

举个例子:

模型选择:Realistic Vision V2.0 (如何下载模型可以参照课程

在没有开启面部修复的情况,脸部非常不自然(特别是在画全身的时候)

img

开启面部修复后:

img

出图的效果,脸部就自然了非常多

img

2.高清修复

高清修复的原理相当于是把原分辨率的图放大进行绘制,

绘制结束后再做一个还原,从而达到脸部的优化。

这样对于电脑的资源消耗会更大。

img

其中有几个参数可以来说说:

  • 放大算法: 这块可以直接给结论;大家如果要改善真人、三次元的脸部直接使用 R-ESRGAN 4x+ ;如果是二次元的使用 R-ESRGAN 4x+ Anime6B
  • 高清修复采样次数: 建议直接给0,表示直接使用原有出图的采样步数即可
  • 重绘幅度(Denoising): “放飞程度“,在修复的时候和原图的相似关系,越小表示越相似,越大最后的图就和原图没啥关系了
  • 放大倍率: 一般给到2倍即可。太大基本上电脑配置吃不消

我们可以来看看使用高清修复后优化的样子:

img

耗时要远大于不修复的出图时间,

但是效果也是比普通的面部修复要好。

主要是可以根据自己的需要调节参数。

如果我们把重绘幅度拉满,

会发现和原图就不太像了,甚至会… Emmm…

img

六、调参区

前面讲到的模型决定了出图的大方向

Prompt 决定了最终的图是什么样

调参区 则决定了一次出多少张图,分辨率以及随机性

img

1.分辨率 高度&宽度

1.1 如何设置合适的大小

当我们默认进入 SD Web UI 页面后的默认高度和宽度就是 512*512.

这是因为综合各方面来说这个分辨率的性价比是最高的

  • 在 SD 的最初模型 SD 1.5 训练的图片的分辨率大部分都是 512*512,所以在出图的时候,这个分辨率的效果也是最好的
  • 基于性能的考量,512*512 可以比较好的满足质量的要求。对于机器的配置的要求也能适中。如果分辨率设置的比较大,那么电脑的显卡可能就会崩掉,导致SD报错

考虑到SD的最初模型几乎都是 512*512 ,

所以我们想要比较好的效果的时候,

至少应该要有个参数是在 512-768 之前,

这样出图的质量都可以得到保障。

设置的分辨率是:768*320

img

img

1.2.妙用画身体

我们可以来思考一个问题,如果画一个全身的人出来?

第一反应是不是就是在 prompt 里面提出来对吧?

加上 full body ,我们可以来看看效果

img

出来的效果空间感很差,

为了不出现拉伸的情况,SD 会自动的做一些裁剪。

所以,我们可以调整分辨率来实现画全身的场景

img

img

这个看起来是不是就非常完美了!

当想要画全身的时候可以考虑用这种方式。

当然了,细心的同学们会发现,手指还是有问题,我们后续会讲到如何优化!

2.批次VS每批数量

img

这个就很好理解了

(相当于有一个马路,生成批次决定了有几辆车按顺序通过,每批数量决定了有几个车道可以并行通过)

  • 生成批次:可以理解成点击一次生成会循环生成多少个数量的图
  • 每批数量:表示一个批次里一次生成多少张图(一批会有一个概览图)

img

那我们选择哪种方式批量出图呢?

如果你的配置比较高,那么可以使用 每批数量 的方式出图,会更快。

否则就加大批次,每一批生成一个

七、随机种子 DNA

1.随机种子

可能会有同学发现前面我们出的图几乎都是一个样子。

只有细微的不同,这个就是固定了随机种子导致的。

默认随机种子的值是 -1,表示每次出图都会随机一个种子,根据这个种子进行出图。

如果我们想要固定某个形象,那么把对应种子的值填在这,那么每次出图的效果大致都会一样。

img

2.差异种子

如果我们点开更多,会发现还有更多参数

  • 随机种子会和差异种子进行融合
  • 差异强度:融合后的效果到底更偏向随机种子还是差异种子;如果是0,那么相当于没有设置差异种子;如果是1那么相当于是没有设置随机种子

img

这里直接将该软件分享出来给大家吧~

1.stable diffusion安装包

随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。

最新 Stable Diffusion 除了有win多个版本,就算说底端的显卡也能玩了哦!此外还带来了Mac版本,仅支持macOS 12.3或更高版本

在这里插入图片描述

2.stable diffusion视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,一步步带你入坑stable diffusion,科学有趣才能更方便的学习下去。

在这里插入图片描述

3.stable diffusion模型下载

stable diffusion往往一开始使用时图片等无法达到理想的生成效果,这时则需要通过使用大量训练数据,调整模型的超参数(如学习率、训练轮数、模型大小等),可以使得模型更好地适应数据集,并生成更加真实、准确、高质量的图像。

在这里插入图片描述

4.stable diffusion提示词

提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言,整个SD学习过程中都离不开这本提示词手册。

在这里插入图片描述

5.SD从0到落地实战演练

在这里插入图片描述

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名SD大神的正确特征了。

这份完整版的stable diffusion资料我已经打包好,需要的点击下方添加,即可前往免费领取!

<think>嗯,用户想了解Stable Diffusion文生的技巧。我需要先回忆一下相关的知识,确保信息准确。首先,Stable Diffusion是一种基于深度学习的文本到像生成模型,对吧?它通过扩散过程逐步去噪生成像。用户可能已经知道基本概念,但需要具体的技巧来提升生成效果。 接下来,得考虑用户的使用场景。可能是设计师、艺术家,或者普通用户想生成高质量片。他们可能遇到问题,比如生成的片不符合预期,节不够,或者风格不统一。需要针对这些常见问题提供解决方法。 用户的需求是技巧,所以应该分步骤,结构清晰。可能需要包括提示词优化、参数调整、模型选择等方面。还要注意使用中文,避免专业术语过多,必要时解释术语。 第一个技巧可能是提示词设计,详和具体的关键词。比如使用逗号分隔,组合不同元素。还有负面提示词的应用,排除不需要的内容。这部分很重要,因为提示词直接影响生成结果。 第二个可能是参数调整,比如采样步骤、CFG值、种子数。需要解释每个参数的作用和调整建议。比如CFG值过高可能导致过饱和,过低则偏离文本描述。 第三是模型和LoRA的使用,不同的预训练模型影响风格,LoRA可以微调特定特征。用户可能不知道这些资源,需要举例说明,比如现实风格或动漫风格的模型。 第四是迭代优化,可能需要多次生成,调整提示词和参数,或者使用后期处理工具。用户可能希望一次成功,但实际需要多次尝试。 第五是控制生成节,使用附加控制网络,如边缘检测或深度。这部分可能对高级用户更有用,但简单提及可以帮他们了解可能性。 后,注意事项,比如版权和计算资源。用户可能忽略这些,需要提醒。 需要检查结构是否清晰,分点列出,每个技巧有解释和例子。使用Markdown格式,但用户要求避免使用,所以用文字描述。确保LaTeX公式正确,但问题中可能不需要数学公式,不过系统指令里提到,如果有变量或方程的话要处理,但这里可能不涉及,所以可能不需要。 还要注意使用中文,保持口语化,避免生硬。可能需要举例说明,比如提示词组合,负面词的应用,参数设置的具体数值建议。 总结下来,组织成几个主要部分,每个部分有子点,逐步引导用户优化生成结果。确保信息准确,比如CFG值的范围,采样步骤的影响,这些都是关键点。后提醒伦理和法律问题,确保回答全面可靠。</think>以下为Stable Diffusion文生的进阶技巧总结,采用分步式框架帮助您提升生成效果: 一、**提示词工程(Prompt Engineering)** 1. **关键词组合术** - 采用「主体+环境+风格+节+画质」结构,例如: ```宇航员(主体) 站在发光水晶森林中(环境) 赛博朋克插画风格(风格) 8k节(节) Unreal Engine渲染(画质)``` - 使用权重符号`(word:1.5)`调节重点,如`(银河:1.3)背景` 2. **负面提示词应用** ```text 低分辨率, 模糊, 畸形手指, 比例失调, 水印, 文字 ``` 可叠加艺术风格负面词,如`避免印象派笔触`等 二、**参数调优指南** 1. **采样器选择** - 写实类推荐:DDIM/DPM++ 2M Karras - 艺术类推荐:Euler a/Heun - 试验步数范围:20-50步(过低导致节缺失,过高可能过拟合) 2. **CFG Scale调节** - 常规范围:7-12 - 高创意需求:5-7(增强模型自由度) - 精准控制:12-15(需配合高质量提示词) 三、**模型协同策略** 1. **基础模型选择** - 真实系:Realistic Vision/Protogen - 动漫系:Waifu Diffusion/Anything V5 - 实验性:SDXL 1.0(需更高显存) 2. **LoRA微调技巧** - 权重叠加公式:`<lora:filename:0.8>` - 组合使用多个LoRA时,总权重建议≤1.5 四、**控制网络进阶** 1. **深度控制** ```text 通过Depth-to-Image模块实现: 1. 输入草或3D场景 2. 设置深度阈值0.3-0.7 3. 与提示词联合调节空间层次 ``` 2. **色彩约束** - 使用调色板插件限定主色 - HEX代码控制:`#FF5733作为主色调` 五、**迭代优化流程** 1. 首轮生成使用512x512分辨率测试构 2. 通过img2img进行局部重绘(遮罩笔刷调节) 3. 终输出采用Hires.fix提升至1024x1024+ - 推荐超分模型:SwinIR/ESRGAN 六、**特殊场景处理** 1. **人物生成要点** - 添加`完美解剖结构`类提示词 - 使用ADetailer插件自动修复面部 2. **多主体控制** ```text 采用组合语法: [猫|狗]在草地上,使用BREAK分隔 配合Regional Prompter分区控制 ``` 注意事项: - 显存不足时启用`--medvram`参数 - 批量生成建议使用X/Y/Z表对比参数 - 商业用途需确认模型授权协议 通过上述技巧的组合运用,可显著提升像质量与控制精度。建议从基础参数开始逐步实验,建立个人工作流模板。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值