Stable Diffusion 入门教程之参数详解（上）

最新推荐文章于 2025-03-27 14:07:55 发布

AI探长Kimbo

最新推荐文章于 2025-03-27 14:07:55 发布

阅读量1.9k

点赞数 22

分类专栏： AI 图像生成 # Stable Diffusion 文章标签： stable diffusion 人工智能机器学习计算机视觉

本文链接：https://blog.csdn.net/meijinbo/article/details/136781255

版权

AI 图像生成同时被 2 个专栏收录

7 篇文章

订阅专栏

Stable Diffusion

7 篇文章

订阅专栏

1. 介绍

在前两篇文章中，我们已经深入探讨了Stable Diffusion的安装步骤以及模型的下载与安装方法。除了模型对画作风格起到的决定性作用，提示词和参数设置在绘图流程中也占据了举足轻重的地位。

对于许多初涉Stable Diffusion的新手而言，面对界面上繁多的参数设置，往往感到一头雾水、无所适从。因此，本文将为大家详细解读Stable Diffusion WebUI的界面设计，并逐一阐述各个参数的具体用途和使用方法。通过这样的介绍，我们期望能够帮助大家在使用这款软件时，能够更加得心应手，根据个人的创作需求，以最优化的方式调整参数，从而生成出符合预期的图片作品。

首先初步了解一下Stable Diffusion WebUI的界面布局：

看到这些参数，许多刚上手的朋友，可能会觉得使用起来太复杂。但实际上，当我们熟悉后就会发现，在绘图过程中真正需要频繁调整的参数并不多，而且操作起来也相当简单。

接下来，我将带领大家一起了解一下一些常用的基础参数及其作用。对于其他未提及的参数，暂时可以不予理会，因为它们在大多数情况下并不需要特别调整，下一期文章将对其他参数进行进一步解读，请多多关注。

2. 常用参数

2.1. 正向提示词

提示词参数是您和AI绘图软件沟通的重要桥梁，在SD中用户可以输入的一组关键词或短语，用于指导模型生成符合特定主题、风格或场景的图像。

提示词输入框内只能输入英文，词语之间使用半角逗号隔开，也可以是一段描述画面的短语，建议提示词的长度要准确精简。

以下是一些通用的正向提示词：

通用正向提示词
提示词	用途
HDR, UHD, 64K	(HDR、UHD、4K、8K和64K)这样的质量词可以带来巨大的差异提升照片的质量
Highly detailed	画出更多详细的细节
Studio lighting	添加演播室的灯光，可以为图像添加一些漂亮的纹理
Professional	加入该词可以大大改善图像的色彩对比和细节
Vivid Colors	给图片添加鲜艳的色彩，可以为你的图像增添活力
Bokeh	虚化模糊了背景，突出了主体，像iPhone的人像模式
High resolution scan	让你的照片具有老照片的样子赋予年代感
Sketch	素描
Painting	绘画

2.2. 反向提示词

反向提示词参数也是您和AI绘图软件沟通的重要桥梁，也就是告诉AI你不想在画面中出现的内容。

通用的反向提示词
反向提示词	描述
mutated hands and fingers	变异的手和手指
deformed	畸形的
bad anatomy	解剖不良
disfigured	毁容
poorly drawn face	脸部画得不好
mutated	变异的
extra limb	多余的肢体
ugly	丑陋
poorly drawn hands	手部画得很差
missing limb	缺少的肢体
floating limbs	漂浮的四肢
disconnected limbs	肢体不连贯
malformed hands	畸形的手
out of focus	脱离焦点
long neck	长颈
long body	身体长

2.3. 迭代步数

输出画面的迭代步数在Stable Diffusion的图像生成过程中起着至关重要的作用。每一次采样步数实际上都是模型在上一次迭代步骤的基础上，进一步绘制并生成新的图像细节。选择合适的采样步数对于平衡图像的质量和生成速度至关重要。

通常情况下，将采样迭代步数保持在18-30步左右是一个比较合适的选择。这一范围内的步数既能够确保画面得到充分的计算，又不会过于耗时。过低的采样步数可能导致画面计算不完整，图像看起来较为粗糙或模糊，无法充分展现用户所期望的细节和特征。而过高的采样步数虽然可以在细节处进行进一步的优化，但相应的生成时间也会显著增加，这在许多情况下是不划算的，特别是对于需要快速生成大量图像的用户而言。

因此，在选择采样步数时，用户需要根据自己的需求和实际情况进行权衡。如果追求更高的图像质量，可以适当增加步数；如果更注重生成速度，则可以选择较低的步数。同时，用户也可以通过多次尝试和调整，找到最适合自己的采样步数设置，以获得既满足质量要求又兼顾效率的生成结果。

2.4. 图片宽度和高度

输出图片的宽度和高度，它直接决定了画面内容的信息量和细节的展现程度。用户需要根据自己的创作需求来选择合适的输出大小。

当输出尺寸较小时，如512*512像素，这也是SD默认的绘图尺寸，这种画幅更适合展现大头照和半身像等局部细节。由于像素数量有限，模型会专注于表现这些局部特征，使得画面在细节上更为精细。

当输出尺寸增大到768*768像素时，画面可以容纳更多的内容。这种画幅通常用于表现单人全身像，无论是站立还是躺坐的姿势都能得到很好的展现。用户可以在这个尺寸下更全面地展示角色的姿态和动作。

当输出尺寸进一步增大到1024*1024像素时，需要特别注意。由于这个尺寸下的像素数量大大增加，模型会尝试在画面中塞入更多的内容。这可能导致出现肢体拼接、多人或多角度等不受词条控制的情况，这也是SD绘图出现崩脸、异形手的主要原因。虽然增加词条可以在一定程度上缓解这个问题，但更关键的是控制好画幅。根据个人经验，可以先在较小的画幅上进行创作，然后再根据需要放大为大图。这样可以确保画面在细节和构图上都得到很好的控制。

以“1girl”为例，当我们选择不同的宽高比例时，会得到不同的画面内容：

方图512x512：这种比例通常会使模型倾向于生成脸部特写或半身像。由于宽度和高度相等，画面空间相对均衡，适合展现角色的面部表情或上半身的姿态。2783496202
高图512x768：这种纵向比例更适合表现站着或坐着的全身像。高度的增加为画面提供了更多的纵向空间，使得模型可以完整地呈现角色的全身姿态，从头部到脚部都能得到充分的展示。
宽图768x512：横向比例则更有可能生成斜构图或半躺像。宽度的增加使得画面在水平方向上得到了扩展，这有助于展现角色的动态姿态或场景中的横向元素。

为了给大家一个直观的感受，以下是相同种子在不同分辨率下的对比效果：