Stable Diffusion之提示词指南(一)

在之前的文章中我们介绍了Stable Diffusion的基础参数,我们知道使用Stable Diffusion UI基础的操作流程并不复杂,主要分为 4 个步骤:选择模型 —> 填写提示词 —> 设置参数 —> 点击生成。

通过操作流程我们知道,最终的出图效果是由模型、提示词、参数设置三者共同决定的,缺一不可。其中,模型主要决定画风、提示词主要决定画面内容,而参数则主要用于设置图像的预设属性。

这期我们主要讲解一下提示词,构建好的提示词是每个Stable Diffusion用户需要学习的第一步,好的提示词简单且事半功效。

什么是提示词(Prompt)

Prompt(提示词)就是我们给AI模型下发的指令,也就是指用户输入的文本或图像信息。目的是指导模型生成我们想要的艺术作品。直白一点来说它就是我们告诉AI我们要画什么,要画成什么的一种“指令”,提示词包含的内容是非常广泛的,它可能包括作品主题、画风、形象特点以及一些具体包含的元素等。这有点类似像程序代码,代码逻辑写对了,程序才能正常运行,代码写的越好。

如今的 AI 工具都是基于底层大模型进行使用的,提示词的本质其实是对这个大模型的深入挖掘和微调,我们可以将它简单理解为人类和 AI 沟通的桥梁,因为模型反馈结果的质量在很大程度上取决于用户提供的信息量。

一句话说简单说来,为了更好的控制AI,人们逐渐摸索出通过反馈来约束模型的方法,原理就是当模型在执行任务的时候,人类提供正面或负面的反馈来指导模型的行为。而这种用于指导模型的信息,就被统称为Prompt提示词。

现在很多企业还单独设立了提示工程师岗位,在人工智能领域也有单独的一门学科叫做 Prompt Engineering 提示词工程。
1-1

想要学习的可以参考具体文档:https://www.promptingguide.ai/zh

而在图像生成领域,提示词就是我们用来调节绘图模型的一种指令,通过输入想要的内容和效果,模型就能理解我们想表达的含义,从而实现准确的出图效果。如下图展示了Web UI中设置的提示词界面,可知道在生成图片的参数中包含正向提示词和反向提示词。

1-2

正向提示词:简单说就是告诉AI你想要绘制什么,需要在画面中出现的内容。

负向提示词:简单说就是告诉AI你想不要绘制什么,不要在画面中出现的内容。

那这些提示词的规则是怎么样的呢,我准备分几期来介绍,这期我们介绍一下正向提示词。

提示词的基本规则

1.只支持识别英文

模型是无法理解中文字符的,Stable Diffusion 只支持识别英文提示词,但我们可以不必遵循英文语法。

2.描述词组化

以词组形式分段输入即可,词组间使用英文逗号进行分隔。除了部分特定语法外,大部分情况下字母大小写和断行也不会影响画面内容,我们可以直接将不同部分的提示词进行断行,由此来提高提示词的可读性。

不要出现一些短句,比如:[一个漂亮的长发蓝眼睛女生坐在公园的椅子上], 对于这种短句来说,[一个女孩] [长发] [蓝眼睛] [公园] [椅子] [坐在椅子上] 这种词组更容易让大模型理解。

3.同义词转化

比如:一个女孩,可以是A girl或 1 girl,大模块更容易理解 1 gril,再比如:A little girl,AI更容易理解 loli,solo。

4.提示词顺序

提示词放入的顺序就是优先级,权重值从前向后递减。

5.提示词长度

不要堆积叠加过多的提示词,AI会记不住,如果内容特别多,可以适当提高迭代步数。

根据使用的Stable Diffusion服务,提示词中可能有最大长度限制。在基本Stable Diffusion v1 模型中,该限制为 75 个token。

Web UI 中的限制:

Web UI没有token限制。如果提示词包含超过 75 个token(CLIP token生成器的限制),它将启动另外 75 个token的新块,因此新的“限制”变为 150。该过程可以永远继续,或者直到你的计算机内存不足…

所以我们的描述最好是75个token为一组,模型会根据每组的描述进行理解。

每个 75 个token块都经过独立处理,生成的表示在输入到 Stable Diffusion 的 U-Net 之前会被连接起来。

在Web UI中,你可以通过查看提示词输入框右上角的小框来检查token的数量。

1-3

如何写好提示词

常用的关键词类

要写好一份提示词,遵循原则为尽可能详细并且具体,从不同角度进行详细描述。

下面从9个角度来介绍输入关键词:

(1) 主体 Subject(必须)

即图片的内容,描述你想画的具体是什么事物。

(2) 媒介 Medium

指定图片的形式,例如photo(照片)​、oil painting(油画)​、watercolor(水彩画)等。

关键字描述
Portrait非常逼真的图画,适合与人一起使用。将图像聚焦在脸部/头上
Digital painting数字艺术风格
Concept art插画风格,2D
Ultra realistic illustration画得非常通真。适合与人一起使用
Underwater portrait与人一起使用。水下。头发飘动
Underwater steampunk非常逼真的图画,适合与人一起使用。水下蒸汽朋克

(3) 风格 Style

以什么样的风格进行绘制,例如hyperrealistic(超现实的)​、pop-art(流行艺术)​、modernist(现代派)​、art nouveau(新艺术风格)等。

关键字描述
hyperrealistic增加细节和分辨率
pop-art波普艺术风格
Modernist色彩鲜艳,对比度高
art nouveau添加装饰品和细节,建筑风格

(4) 画家 Artist

可以指定一位艺术家的名字,让AI以该艺术家的风格进行绘制。需要模型中有该艺术家的风格数据方可指定,例如Picasso(比加索)​、Vincent van Gogh(梵高)等知名艺术家。

关键字描述
John Collier19世纪肖像画家。增添优雅
Stanley Artgerm Lau适合与女性肖像一起使用,生成十九世纪精致的服装,有些印象派
Frida Kahlo效仿卡罗肖像风格的效果相当强烈。有时会导致相框
John Singer Sargent适合与女性肖像一起使用,生成19世纪精致的服装,有些印象派
Alphonse MuchaAlphonse Mucha 风格的 2D 肖像画

(5) 网站 Website

以什么网站的风格进行绘制,例如pixiv(日本动漫风格)​、pixabay(商业库存照片风格)​、artstation(现代插画、幻想)等

关键字描述
pixiv日本动漫风格
pixabay商业库存照片风格
artstation现代插画、奇幻

(6) 分辨率 Resolution

指定图片的分辨率,会影响图片的渲染细节,例如unreal engine(Unreal游戏引擎风格,可用于渲染非常逼真和详细的3D图片)​、sharp focus(锐利对焦)​、8k(提高分辨率)​、vray(虚拟现实,适合渲染3D的物体、景观、建筑等)等。

关键字描述
unreal engine非常逼真和详细的3D
sharp focus提高分辨率
8k提高分辨率,但可能会导致它看起来更假。使图像更像相机且真实
vray3D渲染最适合物体、景观和建筑

(7) 额外细节 Additional details

为图像添加额外的细节,例如dramatic(戏剧性,增强脸部的情绪表现力)​、silk(使用丝绸服装)​、expansive(背景更大,主体更小)​、low angle shot(从低角度拍摄)​、god rays(阳光冲破云层)​、psychedelic(色彩鲜艳且有失真)等。

关键字描述
dramatic从低角度拍摄
silk在衣服上添加丝绸
expansive更开放的背景,更小的主题
low angle shot从低角度拍摄
god rays阳光冲破云层
psychedelic色彩鲜艳但失真

(8) 色调 Color

为图像添加额外的配色方案,例如iridescent gold(闪亮的金色)​、silver(银色)​、vintage(复古效果)等。

关键字描述
iridescent gold闪亮的金色
silver银色
vintage复古效果

(9) 光影 Lighting

光影 Lighting,是指图像里的光照描述,改变光照可以对图像效果产生巨大影响。

关键字描述
rim lighting物体边缘的光
cinematic lighting利用光提高对比度的通用术语
crepuscular rays阳光冲破云层

你不必每次都使用所有类别的关键字,将它们当做备忘清单就好。在使用的时候可以进行参考。

以下所有图像模型都使用DreamShaper,均由DPM++ 2M Karas采样器的25步生成,图像尺寸为512×768,同时我们统一不使用负提示词,再后面再讲解负提示词的作用。

主体 Subject:

A sorceress

1-4

你会得到一些不错的图像,但这个提示留下了太多的想象空间。

你希望女巫看起来怎么样?你有什么关键词可以更具体地描述她吗?她穿什么?她到底施展了什么魔法?她是站立、奔跑还是漂浮在空中?背景场景是什么?

Stable Diffusion无法读懂我们的想法。我们必须准确地说出我们想要什么。

作为演示,我们假设女巫她强大而神秘,并且使用闪电魔法。她穿着镶有宝石的皮革服装。她坐在一块岩石上。她戴着帽子。背景是一座城堡。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background

1-5

现在,我们生成更具体的图像。图像中的服装、姿势和背景是一致的。

媒介 Medium:

现在让我们尝试添加关键字(digital art)数字艺术。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art

1-6

图像从写实绘画风格转变为更像计算机图形风格。

风格 Style:

我们继续在提示中添加(hyperrealistic)超现实、(fantasy)幻想、(dark art)黑暗艺术。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art

1-7

好了,现在场面变得更加黑暗,更加阴森。

网站 Website:

让我们将 artstation 添加到提示中。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation

1-8

这并不是一个巨大的变化,但这些图像确实看起来像你在 Artstation 上看到的那样。

分辨率 Resolution:

我们添加(highly detailed)非常详细,(sharp focus)锐利的焦点,到提示中。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus

1-9

好吧,这并不是一个很大的效果,也许是因为之前的图像已经非常清晰和详细。但添加也没什么坏处。

额外细节 Additional details:

同上,我们添加(sci-fi)科幻,(dystopian)反乌托邦的,到提示词中。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian

1-10

色调 Color:

继续让我们使用关键字(iridescent gold)虹彩金, 为图像添加一些金色。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian, iridescent gold

1-11

黄金在一些地方,比如衣服上表现得很好!

光影 Lighting:

任何摄影师都会告诉您光影是创造成功图像的关键。照明关键字会对图像的外观产生巨大影响。让我们添加(studio lighting)工作室灯光,使其像工作室照片一样。

a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background, digital art, hyperrealistic, fantasy, dark art, artstation, highly detailed, sharp focus, sci-fi, dystopian, iridescent gold, studio lighting

1-12

至此,我们就完成了的提示词的示例。

通过上面示例,我们注意到,仅添加几个关键字,图像就已经相当不错了。构建提示时并不总是越多越好。通常不需要很多关键词就能获得好的图像。

提示词语法

万能公式

提示词即对画面的描述,你想要出现在画面中的内容。而对于不同风格的画面,我们可以有不同的语法范式。

完整的一个通用性提示词语法是这样的:

(quality),(subject),(style),(action/scene),(artist),(filters)

(quality): 代表画面的品质,通常我们选用 Best Quality 最高质量来控制
(subject): 代表画面的主题,形成画面的主要内容,这是所有提示词的组成最关键部分。
(style):代表画面效果的艺术风格。
(action/scene):代表动作、场景,主要用来描述了主体在什么场景,做了什么事情。
(artist): 代表艺术家名字,对于特定的风格强化,如梵高风格很好用,平时可以不用加。
(filters):代表细节补充描述。这是让画面更加丰富,更加具有个性和可控细节的。

比如:

best quality, masterpiece, highres, 1girl, medieval armor, hair ornament, necklace, jewelry, Beautiful face, upon_body, tyndall effect, photorealistic, dark studio, rim lighting, two tone lighting, (high detailed skin:1.2), 8k uhd, dslr, soft lighting, high quality, volumetric lighting, candid, Photograph, high resolution, 4k, 8k, Bokeh

这代表什么呢?翻译成中文是这样的短语,它包含了画面整体的描述,主题内容,场景要求:“最佳质量,杰作,高分辨率,一个女孩,中世纪盔甲,发饰,项链,珠宝,美丽的脸庞,身体上方,泰因德尔效应,逼真的照片效果,暗室摄影,边缘光照明,双色照明,(高度详细的皮肤:1.2),8K超高清,数码单反相机,柔和的光线,高质量,体积光照明,真实自然的摄影,高分辨率摄影,4K,8K,背景虚化。”

1-13

权重调整

强调关键词,这应该是使用最为频繁的语法了。强调关键词是依赖括号和数值来控制特定关键词的权重,当权重数值越高,说明模型对该关键词更加重视,在运行过程中模型就会着重绘制该部分的元素,在最终成像时图片中就会体现更多对应信息。反之数值越低,则最终图片中对应内容会展示的更少。

控制关键词的括号共有三种类型:圆括号()、花括号{}和方括号[],分别表示将括号内关键词的权重调整到原有的 1.1 倍、1.05 倍和 0.9 倍。其中花括号{}平时很少会使用,一般都是用圆括号()和方括号[]。

除了直接加括号外,还有一种更常用的控制权重方法,那就是直接填写数值。

比如: (red hair:1.5),这个形式代表的是(提示词短语:权重系数)。权重数值默认为1。数值小于1表示弱化,数值大于1表示强化,通常我们权重系数会设置在0.3~1.6之间。而在Stable Diffusion的提示词使用中,使用()表示强化,使用[]表示弱化。

floral dress,(red hair:1.5),denim jacket,white sneakers,

比如我们在这次绘图中,注重强调了红色头发。
1-14

我们可以使用多层嵌套来进一步增强或减弱提示词的重要性。

(keyword)等于将权重提高到 1.1 倍,((keyword))则将权重提高到 1.21 倍(=1.1 x 1.1),[keyword]-将权重降低到 90.91%,(keyword:1.5)则是将权重提高到 1.5 倍,(keyword:0.25)是将权重减少为原先的25%。

总结一下:

  • 英文圆括号(tag):每套一层权重增加1.1 倍
  • 英文大括号{tag}:每套一层权重增加1.05 倍
  • 英文方括号[tag]:每套一层权重减少0.9 倍(减权重)
  • 英文圆括号(tag:N):指定权重 x N倍
  • 多层括号就是叠加计算:[[tag]]将权重调整为原来的0.81倍(0.9 x 0.9),((tag))则将权重提高到1.21倍(1.1 x 1.1)

1-15
1-16

除次之外还有关键词混合(分步绘制,停止绘制),打断提示词,融合提示词,交替绘制,矩阵排列,负向提示词等知识我们在下一节进行介绍。

工具和插件推荐

sd-webui-prompt-all-in-one提示词插件

最后我们介绍一下相关插件,推荐一个prompt的Web UI插件sd-webui-prompt-all-in-one

Github地址:https://aiodoc.physton.com/zh-CN/Installation.html

对应的文档也很齐全,这里就不多介绍了,大家可以参考安装文档安装一下。

安装文档:https://aiodoc.physton.com/zh-CN/Installation.html
1-17

使用很方便,还支持翻译,收藏,主题,历史prompt记录,GPT生成提示词等功能。

Prompt工具

最后给大家推荐一些Prompt生成的工具。

MagicPrompt-Stable-Diffusion

这个是huggingface提供的生成地址,

地址:https://huggingface.co/spaces/Gustavosta/MagicPrompt-Stable-Diffusion

1-18

AI绘画提示词生成器

和插件sd-webui-prompt-all-in-one类似的工具,一个在线网站生成Prompt工具。

地址:http://www.atoolbox.net/Tool.php?Id=1101

1-19

AI画廊

地址:https://www.aigallery.top/?engine=stable

1-20

网站获取提示词
civitai站点

地址:https://civitai.com/

访问civitai,选中图片后,点击图片,然后选中COPY ALL获取对应的数据。

1-21

将粘贴的数据,放到正提示框中,点击生成下角的箭头按钮,就会自动生成到对应的提示词,非常方便我们复现和学习提示词。

1-22

liblib站点

地址:https://www.liblib.art/

1-23

选中图片,然后点击复制全部,接着就和上面一样操作,COPY到Web UI操作就行了。

Prompt指南资料

给大家提供一个Prompt指南资料,来源于OpenArt,比较全面的文档,值大家去读一读,文档已经翻译成中文,非常不错。

1-24
1-25
需要的读者访问微信公众号‘“壁虎说技术”,回复【Prompt指南】即可获取下载地址。

好了,今天的文章介绍到此为止,欢迎大家关注微信公众号"壁虎说技术",更多AI新技术,新点子在公众号第一时间更新。

壁虎说技术

参考

prompt-guide
Stable Diffusion 入门指南-1
提示工程
商用级AIGC绘画创作与技巧(Midjourney+Stable Diffusion)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值