Stable Diffusion学习指南【文生图篇】

本文详细介绍了Stable Diffusion的文生图操作,包括提示词的概念、基础和高阶语法,以及参数设置解析。提示词是控制AI绘图的关键,基础语法涉及正向和负向提示词,高阶技巧如强调关键词、分步绘制等。参数设置中的采样迭代步数、采样方法等影响图像质量。通过学习,用户能更好地掌握Stable Diffusion的绘图魔法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对体验过AI绘画的朋友们来说,提示词可以说是耳熟能详了,目前市面上的AI绘图工具基本都是围绕着文生图的基本功能展开的。不过相较于其他工具,Stable Diffusion的在咒语编写上会具有技巧性,相信大家在学习过程中都遇到过类似问题:复制别人的咒语但效果却很差、咒语的控图效果不理想、加了关键词但绘图结果却没有体现等。

别担心,在今天的教程里,我会为你详细的介绍Stable Diffusion文生图的操作方法以及提示词编写的语法技巧,保证你看完之后就能轻松成为一名专业的绘图魔法师🧙

历史文章地址:
Stable Diffusion学习指南【初识篇】

Stable Diffusion学习指南【安装篇】


关于文生图

在Stable Diffusion中,有文生图和图生图2种绘图模式,今天我们先来看看如何使用文生图来绘制我们想要的图片。下面是Stable Diffusion文生图界面的基础板块布局,如果你此前更换过主题相关的扩展插件,界面的功能布局可能会有所区别,但主要操作项都是相同的。

图片

Stable Diffusion基础的操作流程并不复杂,一共就分成4步:选择模型—填写提示词—设置参数—点击生成。通过操作流程就能看出,我们最终的出图效果是由模型、提示词、参数设置三者共同决定的,缺一不可。其中,模型主要决定画风、提示词主要决定画面内容,而参数则主要用于设置图像的预设属性。

图片

关于模型需要讲解的内容有很多,我会在后面的文章中单独进行介绍,今天我们重点关注提示词的写法以及各种设置参数的功能和含义,准备好了吗,下面让我们正式开始吧~

提示词的概念

大家都知道,如今的AI工具大多是通过提示词来控制模型算法,那究竟什么是提示词?

对于人类而言,在经过多年的学习和使用后,我们只需简单的几句话便能轻松的沟通和交流。但如今的人工智能还是基于大模型的数据库进行学习,如果只是通过简单的自然语言描述,没有办法做到准确理解。为了更好的控制AI,人们逐渐摸索出通过反馈来约束模型的方法,原理就是当模型在执行任务的时候,人类提供正面或负面的反馈来指导模型的行为。而这种用于指导模型的信息,就被统称为Prompt提示词。

图片

如今的AI工具都是基于底层大模型进行使用的,提示词的本质其实是对这个大模型的深入挖掘和微调,我们可以将它简单理解为人类和AI沟通的桥梁,因为模型反馈结果的质量在很大程度上取决于用户提供的信息量。当然这个问题主要还是底层大模型训练不够充分的缘故,像现在很多针对特定风格训练的应用级绘图模型,即使只有寥寥几个词也能绘制出优美的画作。如今很多企业为此还设立了单独的提示工程师岗位,在人工智能领域也有单独的一门学科叫做Prompt Engineering 提示词工程。

微软官方在最近也推出了一份完整的提示工程操作指南,感兴趣的朋友可以去深入学习一下:

https://github.com/dair-ai/Prompt-Engineering-Guideicon-default.png?t=N7T8https://github.com/dair-ai/Prompt-Engineering-Guide

图片

对于细分到我们今天要聊的图像生成领域,提示词就是我们用来调节绘图模型的一种方法,通过输入想要的内容和效果,模型就能理解我们想表达的含义,从而实现准确的出图效果。

提示词的基本语法

如今,大部分模型都是基于英文训练,因此输入的提示词大多只支持英文,中间也会夹杂了各种辅助模型理解的数字和符号。由于AI绘图无需经历手绘、摄影等过程就能凭空生成图片,国内最早一批AI爱好者贴切的将AI绘画过程比作施展魔法,提示词就是我们用来控制魔法的咒语,参数就是增强魔法效果的魔杖。

3.1 基础书写规范

相较于简单易上手的Midjourney,Stable Diffusion的咒语上除了prompt(正向关键词)外,还有Negative prompt反向关键词。顾名思义,正向提示词用于描述想要生成的图像内容,而反向关键词用于控制不想出现在图像中的内容,比如目前很多模型还无法理解的手部构造,为了避免出现变形,我们可以提前在反向关键词中输入手部相关的提示词,让绘图结果规避出现手的情况。不过目前很多反向提示词都已经集成到Embedding模型中,使用时只需输入模型触发词即可,在后续的文章中我会详细介绍。

图片

前面我们提到Stable Diffusion只支持识别英文提示词,因此大家务必记住全程在英文输入法下进行输入,模型是无法理解中文字符的。但好消息是我们不用像学习英语时那样遵照严格的语法结构,只需以词组形式分段输入即可,词组间使用英文逗号进行分隔。除了部分特定语法外,大部分情况下字母大小写和断行也不会影响画面内容,我们可以直接将不同部分的提示词进行断行,由此来提升咒语的可读性。

图片

在Stable Diffusion中,提示词默认并不是无限输入的,在提示框右侧可以看到75的字符数量限制。不过不用担心内容过长的问题,作者A41大佬提前在WebUI中预设好了规则,如果超出75个参数,多余的内容会被截成2段内容来理解。注意这里表示的并非75个英文单词,因为模型是按照标记参数来计算数量的,一个单词可能对应多个参数。

<think>嗯,用户想了解Stable Diffusion文生的技巧。我需要先回忆一下相关的知识,确保信息准确。首先,Stable Diffusion是一种基于深度学习的文本到像生成模型,对吧?它通过扩散过程逐步去噪生成像。用户可能已经知道基本概念,但需要具体的技巧来提升生成效果。 接下来,得考虑用户的使用场景。可能是设计师、艺术家,或者普通用户想生成高质量片。他们可能遇到问题,比如生成的片不符合预期,细节不够,或者风格不统一。需要针对这些常见问题提供解决方法。 用户的需求是技巧,所以应该分步骤,结构清晰。可能需要包括提示词优化、参数调整、模型选择等方面。还要注意使用中文,避免专业术语过多,必要时解释术语。 第一个技巧可能是提示词设计,详细和具体的关键词。比如使用逗号分隔,组合不同元素。还有负面提示词的应用,排除不需要的内容。这部分很重要,因为提示词直接影响生成结果。 第二个可能是参数调整,比如采样步骤、CFG值、种子数。需要解释每个参数的作用和调整建议。比如CFG值过高可能导致过饱和,过低则偏离文本描述。 第三是模型和LoRA的使用,不同的预训练模型影响风格,LoRA可以微调特定特征。用户可能不知道这些资源,需要举例说明,比如现实风格或动漫风格的模型。 第四是迭代优化,可能需要多次生成,调整提示词和参数,或者使用后期处理工具。用户可能希望一次成功,但实际需要多次尝试。 第五是控制生成细节,使用附加控制网络,如边缘检测或深度。这部分可能对高级用户更有用,但简单提及可以帮他们了解可能性。 最后,注意事项,比如版权和计算资源。用户可能忽略这些,需要提醒。 需要检查结构是否清晰,分点列出,每个技巧有解释和例子。使用Markdown格式,但用户要求避免使用,所以用文字描述。确保LaTeX公式正确,但问题中可能不需要数学公式,不过系统指令里提到,如果有变量或方程的话要处理,但这里可能不涉及,所以可能不需要。 还要注意使用中文,保持口语化,避免生硬。可能需要举例说明,比如提示词组合,负面词的应用,参数设置的具体数值建议。 总结下来,组织成几个主要部分,每个部分有子点,逐步引导用户优化生成结果。确保信息准确,比如CFG值的范围,采样步骤的影响,这些都是关键点。最后提醒伦理和法律问题,确保回答全面可靠。</think>以下为Stable Diffusion文生的进阶技巧总结,采用分步式框架帮助您提升生成效果: 一、**提示词工程(Prompt Engineering)** 1. **关键词组合术** - 采用「主体+环境+风格+细节+画质」结构,例如: ```宇航员(主体) 站在发光水晶森林中(环境) 赛博朋克插画风格(风格) 8k细节(细节) Unreal Engine渲染(画质)``` - 使用权重符号`(word:1.5)`调节重点,如`(银河:1.3)背景` 2. **负面提示词应用** ```text 低分辨率, 模糊, 畸形手指, 比例失调, 水印, 文字 ``` 可叠加艺术风格负面词,如`避免印象派笔触`等 二、**参数调优指南** 1. **采样器选择** - 写实类推荐:DDIM/DPM++ 2M Karras - 艺术类推荐:Euler a/Heun - 试验步数范围:20-50步(过低导致细节缺失,过高可能过拟合) 2. **CFG Scale调节** - 常规范围:7-12 - 高创意需求:5-7(增强模型自由度) - 精准控制:12-15(需配合高质量提示词) 三、**模型协同策略** 1. **基础模型选择** - 真实系:Realistic Vision/Protogen - 动漫系:Waifu Diffusion/Anything V5 - 实验性:SDXL 1.0(需更高显存) 2. **LoRA微调技巧** - 权重叠加公式:`<lora:filename:0.8>` - 组合使用多个LoRA时,总权重建议≤1.5 四、**控制网络进阶** 1. **深度控制** ```text 通过Depth-to-Image模块实现: 1. 输入草或3D场景 2. 设置深度阈值0.3-0.7 3. 与提示词联合调节空间层次 ``` 2. **色彩约束** - 使用调色板插件限定主色 - HEX代码控制:`#FF5733作为主色调` 五、**迭代优化流程** 1. 首轮生成使用512x512分辨率测试构 2. 通过img2img进行局部重绘(遮罩笔刷调节) 3. 最终输出采用Hires.fix提升至1024x1024+ - 推荐超分模型:SwinIR/ESRGAN 六、**特殊场景处理** 1. **人物生成要点** - 添加`完美解剖结构`类提示词 - 使用ADetailer插件自动修复面部 2. **多主体控制** ```text 采用组合语法: [猫|狗]在草地上,使用BREAK分隔 配合Regional Prompter分区控制 ``` 注意事项: - 显存不足时启用`--medvram`参数 - 批量生成建议使用X/Y/Z表对比参数 - 商业用途需确认模型授权协议 通过上述技巧的组合运用,可显著提升像质量与控制精度。建议从基础参数开始逐步实验,建立个人工作流模板。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值