Stable Diffusion 系列教程 | 快速入门

目录

1.基本原理

2.主流方式

3.配置要求

3.1 显卡方面

4.基本界面

4.1 模型设置区

4.2 菜单栏区域

4.3 提示词区

4.4 出图设置区

5.文生图基本操作流程

5.1 选用模型,撰写提示词

5.2 进行出图设置

5.3 再次出图!

5.4 保存


1.基本原理

在2012年,就有很多的学者对图像生成展开了研究,但在那时候,因为算法,数据,算力等各方面原因,生成的图像过于“抽象” ,可以称他为灵魂画手,直到最近两年,AI产出的图像内容在质量上和准确度上渐渐地变得更高,同时由于一些辅助装备,如ControlNet等让AI绘画可控性更高,也更受到大家的重视。

现在的主流的AI绘画模型,主要运用了扩散Diffusion模型,他很人类绘画相比差异很大,不是起稿,勾线,描边,上色等步骤按部就班完成的,他采取了一个独特的方式

首先它将图片通过增加噪声的方式进行“扩散”,也就是让他变得更模糊,当内容模糊之后,我们就可以理解为有更大的空间让它自由发挥了,AI也是如此,但是在训练它的过程中,它可以学习到一种重要的能力,就是逐步恢复这种杂乱的噪声为真实图像

而如果在训练的过程中我们给AI 一些限制条件等,AI就可以按我们限制条件去恢复生成我们想要的图像了

2.主流方式

Midjourney,DALL E等方式

(1)出图额度需要购买会员(换句话说就是需要付费)直接租价格比较贵,可以去租用共享账号

(2)较容易出比较高质量的图

(3)模型部署在云端,不需要本地电脑配置较高

Stable Diffusion

(1)是一款免费的软件,可以无限制出图

(2)但是有一定的上手门槛,出图质量需要较多的调控才能达到满意的效果,因而我们这系列教程主要围绕stable diffusion

(3)部署在本地,比较吃电脑配置,显卡内存(也可以部署在GPU服务器)

(4)但是由于开源,依托强大的开源社区,收获非常多的活跃用户,可以进行个性化的训练,个性化程度较高

3.配置要求

3.1 显卡方面

显卡品牌型号 N卡(英伟达的独立显卡)首选,目前也支持A卡,但是速度较N卡慢

不同品牌型号,意味着显卡的算力不同,进而影响着出图的速度

查看自己的显卡品牌型号的方法如下链接

分享几种查看本机显卡类型的方法~~ - 知乎 (zhihu.com)

查到以后可以对照下表 ,下表是不同型号N卡出一张512*512分辨率的图片,迭代步数为100步的时间

图片来源 B站 Nenly同学

显卡内存 最少8GB能玩,16GB及格,上不封顶,越高玩的越爽 内存主要影响着出图分辨率,模型大小等

硬盘空间 最少有60GB以上的硬盘空间,因为我们需要下载很多模型,而一个模型往往都有几个GB

4.基本界面

下面界面是加了一些插件之后的,如中文插件,图库浏览器,如果你使用的是一些大佬的整合包,那么一般他们都会帮助你安装好,但是如果没有也无所谓,我们会在之后给大家讲解插件的安装

4.1 模型设置区

左上角用来更换模型

点击下拉箭头查看并且选择模型

模型需要我们提前下载并且保存到 根目录/models/Stable-diffusion文件夹下

当我们保存模型到上述文件夹下后,点击蓝色的刷新按钮,刷新模型,再点击下拉箭头就可以看到我们的模型了

4.2 菜单栏区域

一些基本功能

最常用的两个 文生图,图生图

选项作用
文生图由prompts提示词生成图片
图生图由已有的图片+提示词生成图片
图库浏览器(后安装的插件)查看生成的图片
Tag 反推由图片反推提示词prompts
设置进行一些设置操作
扩展进行扩展安装管理等操作

其他我们用到的时候再介绍

4.3 提示词区

最关键的一个区域,也就是我们念咒语的地方,这里用英语撰写(可以用翻译软件)

正向提示词 希望画面出现的内容,一般我们会有一些固定的提示词,如(杰作masterpiece, 最高质量best quality,高细节)特定模型也会有特定的让画面质量变高的正向提示词

反向提示词 不希望画面出现的内容,如(丑陋的,多手指的)

之后会给大家专门总结,到时候直接复制粘贴即可

提示词区右边的生成下边有五个小图标,相当于一些快捷键,从左到右依次为

图标作用
箭头复原上次生成图片的提示词(自动记录)
垃圾桶清空当前所有提示词
红色日出打开其他模型选择界面如Embedding,HypernetWork的选择,这些模型后面会单独讲到
记事薄应用选择的风格模板到当前提示词,就是着五个小图标下面那个风格模板选项
保存按钮保存当前的正反向提示词

4.4 出图设置区

如图

从上到下,左到右依次介绍

采样方法

采样方法具体是什么涉及到模型原理,不必深究,我们这里只需要知道什么时候用什么样的采样方法即可,一般遵循如下原则

(1)在显卡给力,时间充裕的条件下,可以自己尝试比较不同的采样方法

(2)一般在C站下载模型的同时,模型作者会给出他觉得比较好的采样方式,这是作者已经经过大量实验的结论,可以帮助你节约时间

(3)没有作者相关建议的时候

对于二次元图 DPM++ 2M或DPM++ 2M Karras UniPC

对于真实系图 Euler a、DPM++ SDE、DPM++ SDE Karras

同时,一般而言带++的都相对来说不戳

迭代采样步数

之前讲原理的时候,模型将噪声一步一步恢复到真实图片,此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是25个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

(1)如果正在测试新的提示,并希望获得快速结果来调整您的输入,请使用10-15个步骤

(2)当您找到您喜欢的提示时,请将步骤增加到25

(3)如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到40

面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。 平铺/分块:生成一张可以平铺的图像 高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中后会有新的参数,之后专门出一篇介绍

宽度高度 出图分辨率设置 最佳的范围应在512至768像素之间

设置的出图分辨率太低,会导致图像不清晰

设置的出图的分辨率过高,一方面显存支撑不了,另外一方面可能会导致图像生成多人情况,

生成批次:每次生成图像的组数。 每批数量:每组多少个图像。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1

提示词相关性CFG:较高的数值将提高生成结果与提示的匹配度。 OpenArt上使用的默认CFG是7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于5。 CFG量表可以分为不同的范围,每个范围都适合不同的提示类型和目标 CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用 CFG 7-10:推荐用于大多数提示。创造力和引导一代之间的良好平衡 CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时 CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量 CFG >20:几乎无法使用

随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

5.文生图基本操作流程

我们可能一下子了解不了这么多,大家可能都看困了,那么我们来亲自来出一张图,体验一下基本的过程,加深印象

5.1 选用模型,撰写提示词

在左上角模型选取,选择深渊橘模型

写提示词

画面内容 用自己的语言描述一个画面出来

如 一个女生在城市里骑着自行车,阳光洒在她的身上,但是提示词不认中文打开翻译软件,翻译即可

A girl rides a bicycle in the city, and the sunlight shines on her

但仅有这个远远不够,不相信?给你看一下这样图片直出 有多离谱

点击生成,喀嚓,生成如下

惨不忍睹,所以还需要加一些正面对画面质量这些约束的咒语

在正向提示框加入

SFW, (masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),

反向提示框加入

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

5.2 进行出图设置

我们就将采样方式设置为 DPM++ 2M

5.3 再次出图!

不能说有多好,但至少比刚才好了一些,当然后续还会介绍更多技巧提升画面质量

所以我们要意识到一点, stable diffusion 出一张好图是不容易的,这也是为什么显卡这些的重要性,它可以让我们低成本试错

5.4 保存

点击图库浏览器,可以查看生成的图片

想把他导出来

右键,另存为即可

或者找到根目录下的outputs文件夹 里面有我们的所有的图片

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Stable Diffusion(稳定扩散)是一种用于生成高质量文本的语言模型。它是由CSDN开发的C知道 AI团队开发的一种基于GPT的模型。Stable Diffusion模型通过对大量的文本数据进行预训练,学习到了丰富的语言知识和语义理解能力。它可以用于各种自然语言处理任务,如文本生成、对话系统、机器翻译等。 Stable Diffusion模型的核心是一个深度神经网络,它由多个Transformer模块组成。这些Transformer模块可以有效地捕捉文本中的上下文信息,并生成连贯、有逻辑的文本。Stable Diffusion模型还引入了一种称为Diffusion Mechanism(扩散机制)的技术,用于控制生成文本的稳定性和一致性。 与传统的基于规则或统计方法的文本生成模型相比,Stable Diffusion模型具有以下优势: 1. 生成文本质量高:Stable Diffusion模型通过大规模预训练学习到了丰富的语言知识,可以生成更加准确、流畅、自然的文本。 2. 上下文理解能力强:Stable Diffusion模型利用Transformer模块有效地捕捉了文本中的上下文信息,可以更好地理解和表达复杂的语义。 3. 可控性强:Stable Diffusion模型引入了Diffusion Mechanism技术,可以控制生成文本的稳定性和一致性,使得生成结果更加可控和可靠。 总之,Stable Diffusion是一种强大的语言模型,可以用于各种文本生成任务,并且具有高质量、上下文理解能力强、可控性强等优势。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值