刚学的一些提升AI生成图像质量的技巧

爱绘画的彤姐

已于 2024-12-30 18:46:29 修改

阅读量2.4k

点赞数 28

文章标签：人工智能深度学习机器学习 stable diffusion AIGC AI作画学习

于 2024-05-18 11:44:07 首次发布

本文链接：https://blog.csdn.net/A2421417624/article/details/139022692

版权

玩了几天 Midjourney，最近换 Stable Diffusion 生成了不少图片，过程中学到使用SD的一些知识。

1. 尽量按照推荐参数使用模型

从网上下了很多SD模型，有大模型有Lora模型，但不管是大模型还是Lora模型生成的图片总是达不到网站效果图的效果。我以为下载的文件有问题，大模型特别大占不少硬盘空间，删了也不是留着也不是。

现在有点后知后觉，这是因为模型最终效果受采样器、迭代步数、图片尺寸等很多参数的影响。

如果参数不恰当，即便写8K、高清晰度、不要扭曲的手等提示词，出的图大概率也是很差的。比如这样（还有很畸形的图就不放出来污染大家眼睛了）：

所以下载模型时，一定要看作者有没有推荐的配置参数，Lora模型推荐用哪个大模型等，并将其记录下来以供参考。比如：

麦橘写实：

采样器：选Euler,restart
迭代步数：30
脸部修复：无须

万享超写实_1.5：

建议尺寸：可以跑512*768(加放大效果最好)，768*1024，768*1152，如624*1024竖图最好跑全身像，半身像会拉伸人物导致脖子或者身体拉长问题，以上尺寸横竖都可跑）
采样器：DPM++ 2S a Karras
迭代步数：25以上
脸部修复：建议开启ADetailer
高分辨率修复建议：放大算法：4x-UltraSharp，重绘幅度：0.4-0.75

很多模型是英文名词，而且模型预览界面长一个样（如下图），要记住哪个模型擅长干什么，并且记住推荐参数，不容易。即便记在小本本上，用的时候去找也会觉得麻烦。

所以建议把预览图贴上去。方法是下载模型的时候，顺便把效果图保存下来（与模型使用相同名称保存为png或jpg格式），并与模型放在相同的目录下。这样就可以在webui界面查看了。

点击预览图右上角设置图标。把一些想记的东西，写在笔记栏。这样下次用的时候很方便。（我猜测：一些完善的模型，作者会做这个工作，但很多爱好者只是训练模型，描述、笔记这些内容就懒地写了）

2. 高分辨率修复和ADetailer插件

我用的是MacBook Air M1，生成大尺寸图或开启“高分辨率修复”后，感觉机器发热明显。所以一般不想开启，只想在提示词写上“8K、高清晰度、不要扭曲的手”之类的关键词，多次生图后，效果很差，很有挫败感。

现在知道，这是对SD原理似懂非懂导致的。

因为图像是由很多像素点组成的，这些点的密集程度决定了图像的精细度。高分辨率的图像有更多的像素点，所以能够展现丰富的细节。而分辨率低的图像，由于像素点少，一大块整体颜色替代了本应很多像素点才能组成的微妙变化，所以图像就缺乏清晰度和真实感，甚至会扭曲变形。

生成大尺寸图或开启“高分辨率修复”后，强迫AI去计算更多的细节，确保像素点的密度足够，且每个像素点在正确的位置，有正确的颜色，于是就画出了高质量的效果。

也正是因为AI去计算更多细节，所以耗能严重，机器发热。

有一个必备插件是ADetailer。它可以让AI专注于提升脸和手的细节和分辨率，而不必提升整张图的所有细节，从而在保证质量的同时控制性能消耗。

当然需要提醒的是，即便开启了高分辨率修复或使用了ADetailer插件，也会出现脸崩或手崩的情况，只是概率会降低。这是AI生图机制的限制。

3. 为什么写了提示词没效果

我现在的理解不知道对不对。使用1.5等基础大模型，可能需要在提示词中强调高分辨率等内容，而使用训练后的模型或Lora模型，选择了推荐的分辨率、步数等参数，一般就不需要再写了。只需要写你希望生成图片的主体内容就可以了。

不过在玩的过程中，我发现了一个提示词的知识点挺关键的。

不是写什么提示词都有用，比如我想生成一个人物全身像，写“全身”、“全身像”、“从头到脚” ，甚至设置权重都不一定管用。

问题出在哪儿呢？除了看你选择的模型擅长什么之外。问题是其他的提示词都是强调脸、手的关键词，比如“帅气”、“美丽”、“精致的五官”、“高级的妆容”、“短发”、“长发”、“帽子”、“亚洲面容”等等。导致AI会重点关注这些地方，从而降低了画出“全身”的概率。

解决办法是，增加跟全身相关的提示词，比如“短裤”、“牛仔裤”、“板鞋”、“球鞋”、“修长的腿”、“走在人行道上”等，这样AI就会注意到这些要求，从而增加画出“全身”的概率。

AI也会考虑到图像的尺寸，长图画出“全身”的概率更高。即是说9:16的图比16:9、1:1尺寸的图，更容易出现全身。

背后的原理应该是AI会计算图像宽高比以及所有提示词的向量表示，并将这些向量合并或加权求和，生成一个综合的特征表示空间后，根据整体结论出图，而不是某一两个具体的提示词。

最后还得感叹一句，坑挺多的。AI时代不是普通人说一句自然语言就能得到想要结果的。我们对拉车的人说，汽车虽然是自己跑的，但你得学会开。

最后放一些 Stable Diffusion 生成的图片吧。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述