Stable Diffusion-新手入门指南

Python程序员小泉

于 2024-09-26 09:30:00 发布

阅读量1.6k

点赞数 27

分类专栏： SD教程 AI绘画文章标签： stable diffusion 人工智能 AI作画 AI绘画 AIGC

本文链接：https://blog.csdn.net/m0_59162248/article/details/142468961

版权

AI绘画同时被 2 个专栏收录

280 篇文章 22 订阅

订阅专栏

SD教程

251 篇文章 5 订阅

订阅专栏

1、Stable Diffusion

Stable Diffusion 是一种基于潜在扩散模型（Latent Diffusion Models）的文本到图像生成模型，能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。

如何使用Stable Diffusion？

你需要给出一个描述图片的提示，例如：姜饼屋，西洋镜，焦点，白色背景，吐司，脆麦片；生成图片如下：

Stable Diffusion优势

类似的文本生成图像服务有很多，例如DALLE和MidJourney。那为什么要选择Stable Diffusion呢？

•开源：相较于刚才提到的两个工具，Stable Diffusion对于用户而言最大的优势在于免费。

•高质量：Stable Diffusion模型可以生成高分辨率、样化的图像，与真实图片难以区分。

•灵活性：Stable Diffusion模型可以处理各种类型和风格的文本输入和图像输入，无论是简单的描述、复杂的故事、抽象的概念、还是具体的要求。

•稳定性：Stable Diffusion模型可以避免出现常见的图像生成问题，如模糊、伪影、重复、不自然等。

2、多样化风格模型

风格切换

在使用过程中大家可以根据自身的设计需求进行风格模型切换，例如：

•Stable Diffusion v1.4/.5/2.0/2.1：官方基础模型。百搭各种风格；

•Realistic Vision v2.0 : 擅长生成照片风格的逼真图像；

•Anything v3.0：动漫风格；

•dreamlike-photoreal ：写实风格；

动漫风格

逼真图像

3、产品推荐

在线生成器

对于AI绘画感兴趣的0基础初学者，可以使用一些免费在线生成器生成图片，无需进行镜像部署等相对复杂的操作环节。

AI绘画 Web UI

免费在线生成器的功能非常有限，对于图片有更高要求的人而言，可以使用更高级的Web UI（网络产品界面设计）。我使用的是UCloud的GPU云服务器，搭配平台提供的AI绘图 Web UI镜像，开箱即用，无需进行繁琐配置。请参阅“如何一键部署安装Stable Diffusion Web UI”安装指南。

4、图像生成

Prompt

虽然AI发展迅速，但Stable Diffusion仍然无法精准读懂用户的想法，更多的是需要靠用户尽可能详细地描述需要的图像主题，确保包含有力的关键词来定义整体图像风格。Prompt可以作为元素权重的关键词，让AI更倾向于在绘图中绘制和Prompt的内容相关的元素。

•假设您想生成一张比较有个性的猫咪的照片。一个简单的提示：有个性的猫，生成图片如下：

如果我们用更加详细具体的提示再生成一次：一只灰色的猫，戴耳机，赛博朋克风

从前后两次提示生成的图片对比来看，第一张就过于简单，第二种相对更加符合我们的预期;所以在写提示时，我们要详细描述我们需要的图像风格以及整体的构建。对于初学者而言，前期我们可以借助AI提示生成器学习逐步过程和重要关键词，从而使生成的图片尽可能达到预期效果。

另外在写提示时，关键词也十分重要，有向导性的关键词可以使最终生成的图片更加符合用户的预期效果，例如：

名人的名字（例如 Emma Watson）

艺术家姓名（如梵高）

艺术媒介（例如插图、绘画、照片）

后续我们会单独讲解有关提示构建和示例关键字的更多信息。

Negative prompt

Negative Prompt则是和Prompt相反，是一个反向加权的权重关系，也就是减低某些元素出现的频率，从而约束AI的行为。

参数设置

为了使图片达到更加精准的预期效果，我们在进行图像生成的过程中也可以去调整整体的参数设置，以下是一些比较重要的参数参考：

Image size：输出图像的大小。标准尺寸为 512×512 像素。将其更改为纵向或横向尺寸会对最终生成的图片效果产生很大影响。例如使用纵向尺寸最终会生成全身图像。

Sampling steps：默认 20，整体可根据最终生成的图像效果去设置。适当大一些的可以让画面内容更细致，小的话就没那么细致，想要追求更好的效果也可以将此参数适当调大到30左右。当然，参数越大越吃性能。

CFG scale：可以简单理解为AI对描述参数的倾向程度，默认典型值为7，如果希望最终生成的图像更符合提示，可以适当将参数调大一些。

Seed value：-1 生成随机图像，这个随机数影响画面的内容，如果seed以及Negative Prompt和Prompt都相同，生成几乎完全一致的图片的概率就很高。个人建议这个不用特意设置，默认就行；如果对生成图像有明确要求，可以根据去看调整参数大小。

Batch count：一次性出图的数量，出图数量越多，生成越慢。

5、定制模型

Stability AI及其合作伙伴发布的官方模型称为基础模型。例如 Stable Diffusion1.4、1.5、2.0和2.1。

定制模型是基于基础模型进行训练的。目前，大多数模型都是从 v1.4 或 v1.5 开始训练的。他们通过额外的数据训练，用于生成特定风格的图像。

以下是 5 种不同型号的比较：

选择哪种模型

对于初级玩家来说，可以使用基本模型先摸索整体玩法和应用，建议先从V1.5版本开始。基础模型分为两个主要组：v1和v2。v1模型包括1.4和1.5版本，而v2模型则包括2.0和2.1版本。

如何训练新模型

训练模型的两种主要方法是：(1) Dreambooth和 (2) embedding。

目前整体看来，Dreambooth更强大，因为它对整个模型的权重进行微调。嵌入则保持模型不变，但会找到描述新主题或风格的关键词。

6、图生图

除了上述提到的文生图（txt2img），在选项卡中还有img2img，Extras，PNG Info，Checkpoint Merger，Train，Additional Networks，Dreambooth，Settings，Extensions，其中常用的也还有img2img图生图。

图像精准控制

ControlNet使用输入图像作为参考图，然后程序根据此图按一定的模式预处理一张新图，之后再由AI根据这两幅图绘制出成品；用户也可以关闭程序的预处理功能，直接输入一张用户自己处理好的图片当作预处理图，之后AI仅根据这副图生成成品。它可以提取特定信息，例如动物姿势。下面是使用 ControlNet 从输入图像复制动物姿势的示例。