SD教程| 如何撰写一个优秀的 stable diffusion 提示词？

AI极客菌

已于 2024-12-31 18:14:17 修改

阅读量1.4k

点赞数 17

文章标签： stable diffusion 人工智能 midjourney AI作画机器学习人工智能作画 ai

于 2024-07-09 14:29:06 首次发布

本文链接：https://blog.csdn.net/2401_85688943/article/details/140294788

版权

大家好我是极客菌！！！在本文中，我将详细介绍如何撰写一个优秀的提示词。

首先，需要明确的是，称一种方式为好，并不意味着你只能使用这种方式，就像我们都知道一些书籍是好书，但并不意味着每个人都只能阅读这些书一样。通过学习其中一种好的方式，可以建立起一些概念，帮助你更快入门AI绘画。因此，这篇文章我将分享一种我总结的 prompt 书写方式。

在正式开始之前，我们需要了解一些有关SD的基本知识。我们都知道SD是一个文生图AI模型。由于SD经过大量的数据训练，它能够学习到图像和文本之间的关联模式。这使得模型能够将输入的文本描述转换为相应的图像。通过训练，SD学会了预测并生成与文本描述相匹配的图像。
在这里插入图片描述

SD的训练数据是通过从网络上抓取的超过10亿张带有标签（tag）的图片构成的。这些标签可以是与图片内容相关的关键词或描述，它们提供了有关图片主题、特征和属性的信息。通过将这些标签与对应的图片进行配对，SD模型能够通过学习文本和图片之间的关联来预测我们输入的 prompt 所表示的图片内容。

在训练过程中，SD模型会分析大量的图片和对应的标签（tag）数据，从中捕捉到文本描述与图片内容之间的统计规律和模式。通过不断迭代和优化，模型逐渐提升了对于文本描述与图片内容关联的理解能力。

当使用SD模型时，用户输入一段文本描述，模型会基于其在训练数据中学到的特征和模式来生成一张与描述相匹配的图片。这使得用户能够通过简单的文本输入探索和创造出各种各样的图像内容。

不过，需要注意的是，SD模型的生成过程是基于训练数据的统计规律和模式，并不具备真实世界的理解和判断能力。它的输出结果可能会受到训练数据的偏差、模型的局限性以及输入文本描述的准确性等因素的影响。

2.prompt 框架

一个好的prompt应该是详细而具体的。比如，如果你只输入 “cat”（猫），生成的图片结果会非常广泛。但是如果你能够缩小范围，例如限定猫的品种、颜色甚至姿势，那么生成的图片就会更接近你的预期。通过提供更具体的描述，可以缩小模型的预测范围，从而更容易得到你想要的结果。

那么如何尽可能地缩小模型的预测范围？或者说，如何撰写一个详细而具体的提示？

一个好的提示词应该具备以下要素：

1. 主体： 明确指出所期望生成图像的主要内容，例如动物、植物或其他物品。包括主体动作、表情、眼睛状态、服饰、装饰物等，以丰富主体的特征。

2. 背景： 描述主体所处的环境，包括室内或室外，光线条件等，以帮助模型更好地理解所期望的情境。

3. 构图： 包括景别、拍摄角度、景深等，以控制图像的组成和视角。

4. 风格： 指定所期望的图像风格，例如插画、卡通、水彩、3D、超现实、复古等，同时考虑画面明暗、对比度等视觉效果。

5. 媒介： 说明绘画使用的特定材料或媒介，例如油画、电子绘画、铅笔画等。

6. 画面清晰度： 使用能提高画面锐度的关键词，避免模糊的描述。

7. 灯光效果： 指定所期望的灯光效果，例如侧光、逆光、环境光等，以增强图像的氛围和视觉效果。

8. 颜色氛围： 输入合适的颜色关键词，可以改变整个画面的色调

通过综合运用这些要素，你可以撰写一个详细而具体的提示，从而更精确地指导模型生成符合你期望的图像。

示例

你在写prompt的时候可以考虑下面这些要素，但并不是所有元素你都必须包含。

1、主体

主体（Subject）即是你希望在图像中呈现的主要内容。然而，许多新人常犯的一个错误是未能对主体进行足够详尽的描述。

比如，如果你想要生成一个精灵的图片，许多初次接触AI绘画的新手可能会这样写：

Prompt: an elf (一个精灵)

这样的表述过于简洁，给模型圈定的生成范围还很庞大。这个精灵是在坐着还是站着？表情是怎样的？穿着怎样的衣服？这些都是我们需要详细描述清楚的，否则范围就会很广，生成的图片内容也会变化很大。

因此，为了更准确地指导模型生成预期的图像，我们就需要提供更具体的描述。例如：

Prompt: a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙)

在这里插入图片描述

2、背景

主体所属的环境也是需要进行描述的。将地点，时间，环境元素，天气，光线条件等等都可以输入 prompt 来影响最终的背景。当然，不光是影响背景，主体也会跟着跟背景信息的变化而变化。

在这个例子中，精灵是在树林里的，当然也可以在其它地方，可以结合你自己的想象力去创造更新颖的画面。在这里我就将环境设定在树林里。

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光)

在这里插入图片描述

3、构图

构图包括景别、拍摄角度、景深等等。

景别即人物占画面比例的大小，比如 full shot（全景）能够显示被拍摄对象的整个身体，包括头到脚的范围。full shot 更通俗的表达式 full body，即全身。需要注意的是，有些模型不能识别 full shot，需要尝试使用 full body 才能产生效果。相似的，upper body 或者 half body 则指的是上半身，即腰部以上。更多的关键词，下期我再专门总结。

从上面生成的图片来看，很多都是上半身的图像，但我更想要全身的图像，那么我继续添加关键词：

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像)

可以发现，当我添加full body之后，确实可以生成全身像，但是能发现一个明确缺点，即容易产生畸形人物，这在半身像中却是不常见的。生成全身像会导致任务畸形是许多模型共同的缺点。这可能是因为训练模型使用的材料缺乏这类图片的原因。

4、风格

设定风格能够对图片产生非常大的影响，不同的风格能够给人不同的感觉，可以使用的关键词有很多。例如fantasy（幻想虚拟风格）、hyperrealistic（超现实主义的）、Modernist（现代主义的）、illustration（插画）等等。这里分享一下小技巧，一个能够准确且有效的改变画面风格的方法是加入特定的画家的名字。比如我加入Alan Lee，他是一个插画家：

Prompt: a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想、超现实的)

在这里插入图片描述

5、媒介

不同媒介对画面的质感能够产生显著的影响，比如：油画能够使整个画面产生特殊的纹理；胶片则会给画面添加颗粒感；

我觉得这个水彩效果对这个主题来说更合适，所以我添加了watercolor（水彩）

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic, watercolor, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想的，超现实的，水彩)

在这里插入图片描述

6、画面清晰度

使用能提高画面锐度的关键词，避免产生模糊的图片。如 highly detailed, sharp focus.

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic, watercolor, sharp focus, highly detailed, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想的，超现实的，水彩，锐利聚焦、高度详细)

在这里插入图片描述

看起来细节好像没有多大提升，可能是前面产生的图片已经足够清晰了。

7、灯光效果

指定所期望的灯光效果，例如侧光、逆光、环境光等，以增强图像的氛围和视觉效果。

这里我添加了 cinematic lighting（电影灯光）

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic, watercolor, sharp focus, highly detailed, cinematic lighting, high contrast(一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想的，超现实的，水彩，锐利聚焦，高度详细，电影灯光，高对比)

在这里插入图片描述

8、颜色

整个画面只有绿色，我觉得有些单调，我还想添加更多颜色进去，比如金色。

Prompt：a beautiful girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic, watercolor, sharp focus, highly detailed, cinematic lighting, high contrast, radiant gold color vibe, (一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想的，超现实的，水彩，锐利聚焦，高度详细，电影灯光，高对比，闪耀的金黄色颜色氛围)

在这里插入图片描述

4.反向提示词

使用反向提示词也是一个能够引导模型生成特定图像的方式。

如果才刚开始接触AI绘画，那么就先使用下面这个通用的画人物的反向提示词吧

negative prompt：ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

总结

可能你已经注意到，即使我只是使用了很少的关键词，但是生成的图片效果也已经很不错了。

所以在写prompt的时候，**需要注意，你不需要包含以上所有类别的关键词，你可以挑选其中几种搭配使用。**另外，关键词顺序可以自己更换，顺序越靠前，权重越高，越大概率生成符合该关键词的结果。

将关键词分类的意义是方便记忆。当在你需要生成某些特定图片的时候，你就知道应该从哪些方面去限定生成的范围，这样就可以生成更接近你预期的图片。

**tips：**这些顺序只是我总结的时候按照我自己的意愿做的排序，并不代表你在写prompt的时候就必须按照这个顺序写。

事实上，模型识别文本遵从一个规律，关键词越靠前，权重就越高，意味着位置越靠前生成的图片中该关键词的效果越明显。

就比如上面的水彩风格，如果我将水彩关键词前置，水彩的效果会变得更加明显。

当我将watercolor关键词放在首位:

prompt: watercolor style, a beautiful young girl as an enchanting forest elf sitting on a tree, serene expression, wearing a flowing green dress with intricate details, forest dominated by towering trees, sunny, warm sunlight, full body, by Alan Lee, fantasy, hyperrealistic(水彩风格，一个如迷人的森林精灵般的美丽女孩坐在一棵树上，表情安宁，穿着一件带有复杂细节的飘逸绿色连衣裙，参天大树构成的森林，晴天，温暖的阳光，全身像，Alan Lee画的，幻想的，超现实的)

在这里插入图片描述

**注意看人物的衣服色块

对比图：

在这里插入图片描述

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

在这里插入图片描述

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。
在这里插入图片描述