​StableSwarmUI#超越文本的prompt

今天看到一个新的webui方案,是Stability-AI开源的:

StableSwarmUI

是一个模块化的稳定扩散web用户界面,着重于使强大的工具易于访问、高性能和可扩展性。

0c6cb80239a238cefcb16ea6822b9a76.jpeg

由于项目还在开发中,我们可以先了解下,翻看了它的特点,有一点非常吸引我,就是它对提示工程的处理。

More Than Text: Playing with Prompts 超越文本:提示工程

不就是text?没这么简单,下面的一些要点都非常值得我们学习,如果你在设计一个智能产品或者正在使用sd来创作,值得你查看以下关于prompt的设计:

提示主要是文本输入。不过,还有一些特殊选项可供使用:

1 提示加权,例如 an (orange) cat or an (orange:1.5) cat。括号中的任何内容都会被加权修改,这意味着模型会更加关注提示的这一部分。权重大于1表示更重要,小于1(如0.5)表示不太重要。你还可以按住Ctrl键并按上/下箭头键来更改所选文本的权重。

注意:提示权重的理解方式因后端而异。

2 如果使用SDXL或UnClip,你可以通过将图像拖放到提示框中来使用 ReVision。这将使模型解释图像(使用ClipVision)并将其包含在提示中。

3 你可以使用语法<random:red, blue, purple>来随机从列表中选择每一代的选项。此随机是由主种子确定的 - 因此,如果你有一个固定的种子,这不会改变。

你可以使用逗号“,”来分隔条目,或者使用竖线“|”或两个竖线“||”。使用最独特的分隔符 - 因此,如果你希望在随机选项中包含逗号“,”,只需使用竖线“|”作为分隔符,逗号“,”将被忽略(例如random:red|blue|purple)。

条目可以包含例如1-5的语法,自动从1到5选择一个数字。例如,<random:1-3, blue>将返回1、2、3或blue中的任何一个。

你可以通过<random[1-3]:red, blue, purple>重复随机选择,例如可能返回red blue或red blue purple或blue。你可以在末尾使用逗号,如random[1-3,],以指定输出应该带有逗号,例如red, blue。这将避免重复,除非你的计数大于选项数。

4 你可以使用语法wildcard:my/wildcard/name从通配符文件中随机选择,通配符文件基本上是一个预先保存的文本文件,每行一个随机选项。在UI中,在“Wildcards”选项卡的底部进行编辑。你还可以从其他UI(即文本文件集合)导入通配符文件,只需将它们添加到Data/Wildcards文件夹中。这支持与随机相同的语法来获取多个选项,例如<wildcard[1-3]:animals>可能返回cat dog或elephant leopard dog。

5 你可以使用语法<repeat:3, cat>连续获得“cat”这个词3次(cat cat cat)。例如,你可以使用<repeat:1-3, <random:cat, dog>>来获得1到3个猫或狗的副本,例如可能返回cat dog cat。

6 你可以使用embed:filename在任何地方使用文本反转嵌入

7 你可以使用lora:filename:weight来启用LoRA。请注意,通常最好使用页面底部的GUI来选择LoRA。请注意,提示中的位置无关紧要,LoRA实际上不是提示的功能,这只是一个方便的选项,供习惯于Auto WebUI的用户使用。

8 你可以使用preset:presetname来注入预设。通常更喜欢使用GUI来进行LoRA,这个选项可用于动态地调整预设(例如<preset:<random:a, b>>)。

9 你可以使用segment:texthere使用CLIP分割自动细化图像的一部分。或者segment:texthere,creativity,threshold - 其中creativity是修复强度,threshold是分割的最小阈值 - 例如,segment:face,0.8,0.5 - 默认为0.6的创造力,0.5的阈值。详情请参阅功能公告。

10 你可以使用clear:texthere自动将图像的部分清除为透明。这与分割(上面)使用相同的输入格式(出于明显的原因,这需要PNG而不是JPG)。例如,clear:background以清除背景为例。

把图像分割和抠图也纳入到了prompt里来操作,给了我很多启发,确实很多操作可以转化为prompt的语法,从而实现“自然语言操作界面“。

更多AIGC的知识沉淀,可以在知识库获取,目前已积累了4,012条标签化的知识。

33a39e3d5cd85479ee4574a16c779b73.png

### 文本生成图片提示的方法 为了有效地将文本转换为图像,创建高质量的提示至关重要。这些提示不仅应包含清晰的文字描述,还应该能够引导AI理解所需的风格、细节和其他特定属性。 #### 使用具体而详细的描述 当构建用于生成图像的文本提示时,尽可能提供具体的细节有助于获得更精确的结果。例如,“一只穿着红色外套站在雪中的可爱柯基犬”这样的描述会比简单的“狗”的效果更好[^3]。 #### 结合多模态元素增强提示质量 除了纯文本外,还可以考虑加入其他形式的信息作为补充材料,如参考图或音频片段等。这能帮助模型更好地捕捉意图并创造出更加贴近预期的作品[^2]。 #### 利用现有平台和服务实现自动化流程 目前市面上已经存在一些专门针对此目的开发的应用程序和服务,像WOMBODream就是一个很好的例子。这类工具通常具备直观易用的操作界面,并允许用户轻松提交自己的创意构思以供处理[^1]。 ```python # Python代码示例:通过API调用第三方服务完成从文本到图像的过程 import requests def generate_image(prompt_text, api_key): url = "https://api.example.com/v1/images/generations" headers = {"Authorization": f"Bearer {api_key}"} data = { 'prompt': prompt_text, 'n': 1, 'size': '1024x1024' } response = requests.post(url, json=data, headers=headers) image_url = response.json()['data'][0]['url'] return image_url ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值