【AI绘画】Stable Diffusion界面介绍及实现精准操控的尝试

最新推荐文章于 2024-08-22 13:51:55 发布

写编程的木木

最新推荐文章于 2024-08-22 13:51:55 发布

阅读量844

点赞数 25

文章标签： AI作画 stable diffusion 人工智能美女学习

本文链接：https://blog.csdn.net/HJS123456780/article/details/140018020

版权

图：利用涂鸦线条生成——人工智能绘画

人工智能绘画应用Stable Diffusion
（文章使用的AI绘画SD整合包、各种模型插件、提示词、AI人工智能学习资料都已经打包好放在网盘中了，有需要的小伙伴文末扫码自行获取。）

目前人工智能绘画主流有MidJourney和Stable Diffusion。其中Stable Diffusion开源免费、有大量的模型库以及插件的加持，令Stable Diffusion成为了可控性极高的应用。

下图右侧为笔者涂鸦的老虎，左侧则为Stable Diffusion自动生成的色稿。其中核心的技术是ControlNet模型。

Stable Diffusion 从工作流程讲界面

虽然Stable Diffusion界面有很多内容，但是实际操作上并不需要一一枚举，说一个最短闭环操作。两步：①在左侧输入框填入想要绘制的内容，如“Tiger”，②点击右侧生成，十几秒就会出现结果。

虽然两步就能生成图片，但要让Stable Diffusion发挥它的魔力就需要更多的理解它界面里的参数。

下文内容（重点标红）：
① 主界面分区（提示词技巧）

② 参数区（重绘幅度）

③ 模型区（Lora）

④ ControlNet模型解释

⑤ 采样方式Sample method对比图解

⑥ 训练模型方法

下图为相对完整的使用，明显看到作品的精美度得到了提升。

主界面分区

① 模型（定义不同风格）

② 功能菜单（先文生图、再图生图）

③ 提示词（利用向量词空间限制出图范围）

④ 参数（包括生成图片大小，包含更复杂的功能，需要配合模型才能有更好的效果）

⑤ 生成按钮

⑥ 成品图浏览区域

模型（CKPT）Checkpoint

文件格式为safetensors。safetensors 意为安全safe张量tensors，张量的意思包含向量和矩阵，可以理解为存储数据的文件空间，这个空间的排列方式是按照向量空间进行排列的。

功能菜单

除了一般的工作流，文生图生成图像、图生图优化图像。还会用到比较多的是Tag反推（tagger），即利用图片生成图片描述，这也是经常用到的功能。

正反提示词（prompt）

1）正向提示词：希望画面出现的内容，可以是提示词也可以是描述句；一般很多提示词，最前面的权重最高，画面优先出现。

2）反向提示词：即排除词，不希望画面出现的情况：例如，缺手指，低质量……

技巧：

① Ctrl+ 可快速调整权重，权重默认为1，可以为负数，建议控制在0.7-1.4。

② 可以通过括号控制权重：

③ prompt editing语法：**[from:to:when] ，**先绘制前面，再绘制后面，例，[male:female:0.6] 代表前60%采样步数画male（男人），后40%步画female（女人）。会生成既有男性特性又有女性特征的图片。

④ Composable Diffusion可组合扩散：权重保持一致，使用AND连接两个提示词。可指定权重：

⑤ 交替融合语法：每隔一步切换提示词，融合出四不像；[cat|tiger]

⑥

圆括号：指定特定颜色和大小；(red dress:1.0)

方括号：指定特定标签或类别；[fantasy]

大括号：指定特定属性或值；{age:18}

参数区

1. 采样迭代步数（sampling steps）

输出画面需要的步数，每一次采样步数都是在上一次的迭代步骤基础上绘制生成一个新的图片，一般来说采样迭代步数保持在 18-30 左右即可。低的采样步数会导致画面计算不完整，高的采样步数仅在细节处进行优化，高的采样步数速度得不偿失。

2. 提示词相关性 CFG scale

提示词相关性指的是输入提示词对生成图像的影响程度。提示词相关性较低，对应的权重也较小；对于人物类的提示词，一般将提示词相关性控制在 7-15 之间；建筑等大场景类的提示词，一般控制在 3-7 左右；

3. 随机种子 Seed

设置随机种子可以增加模型的可比性和可重复性。锁定图像大体方向。

**4.重绘权重（图生图）**Denoising strength

低重绘强度配高权重，可以锁定图片的细节，更改画风上的展现。需拓展延伸时推荐。（0.3-0.5）

高重绘强度配低权重，修改图片细节。定风格图后小修改时推荐。（0.7）

模型区

Lora可以极大的优化画面，相当于找一个特定的模特。为了获得最佳效果，我们可以根据不同的 LORA 模型选择适当的提示词和排除词。

ControlNet模型介绍

① 预处理器与模型的关系

预处理器和模型在 Stable Diffusion 中是相辅相成的，预处理器通过对输入图像进行预处理和数据增强，为模型提供了更好的输入，而模型则通过对输入进行特征提取和生成高质量图像，为预处理器提供了更好的反馈。

② Canny边缘检测

Canny 是一种经典的边缘检测算法，能够很好地识别出图像中的边缘信息，对于图像生成任务来说，可以帮助模型更好地生成具有清晰边缘的图像。

对于画面细节不复杂的图像来说很好，但处理复杂图像时，主体会容易被除主题元素以外的元素影响

细节刻画上，一种是分辨率越高，线条越清晰，阈值越少，对应的细节也越多。

③Hed 边缘检测，细节保留

对边缘清晰的图像生成效果更好；当用草图转上色时，可以在绘图软件将描边加粗加深一些，从而能更方便获取边缘。

④ MLSD 线性检测

直线检测，通过分析图片的线条结构来构建出建筑外框，适合建筑设计的使用；

⑤ Open pose- 人物摆 pose

判断主图的主体动作，然后将动作附加在主图上一般配合着 open pose editer。

⑥ LeRes 深度信息估算

对有场景深度的图片效果更佳，生成的图像景深更易区分。

Depth Maps 深度图

Normal Maps 法线图

Synthesized scribble 合成草图

Interactive Scribbles 交互草图

Soft Edge 软边缘

Semantic Segmentation 语义切割

Lineart 线稿

Anime Lineart 动漫线稿

Content shuffle 内容切换

Instruct Pix2Pix 图像指令翻译

Inpaint Mask 遮罩重绘

Tile 平铺

采样方式（Sampler）

采样方式直接决定了步数。通常默认是20步，这意味着程序运行了20次生成了20张图，每一张图都是基于上一幅图和提示词产生的。

一般使用较多的是Euler a，这是二次元图像模型匹配的采样方式，笔者比较喜欢实用DPM++系列的三个，成品质量更好且细节更优质。

训练模型方法（扩散模型）

参考内容：

LoRA訓練篇:類別/正則圖集怎麼用?如何保留模型風格，為畫面增加其他元素?

① 外挂（Kohya‘s GUI）

② 源生（Stable Diffusion）

写在最后

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。