刚学的一些提升AI生成图像质量的技巧

最新推荐文章于 2025-04-04 13:42:34 发布

程序员一东

最新推荐文章于 2025-04-04 13:42:34 发布

阅读量1.2k

点赞数 17

文章标签：人工智能大数据 java stable diffusion tcp/ip

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eqiqi/article/details/145553422

版权

玩了几天 Midjourney，最近换 Stable Diffusion 生成了不少图片，过程中学到使用SD的一些知识。

1. 尽量按照推荐参数使用模型

从网上下了很多SD模型，有大模型有Lora模型，但不管是大模型还是Lora模型生成的图片总是达不到网站效果图的效果。我以为下载的文件有问题，大模型特别大占不少硬盘空间，删了也不是留着也不是。

现在有点后知后觉，这是因为模型最终效果受采样器、迭代步数、图片尺寸等很多参数的影响。

如果参数不恰当，即便写8K、高清晰度、不要扭曲的手等提示词，出的图大概率也是很差的。比如这样（还有很畸形的图就不放出来污染大家眼睛了）：

所以下载模型时，一定要看作者有没有推荐的配置参数，Lora模型推荐用哪个大模型等，并将其记录下来以供参考。比如：

麦橘写实：

采样器：选Euler,restart
迭代步数：30
脸部修复：无须

万享超写实_1.5：

建议尺寸：可以跑512768(加放大效果最好)，7681024，7681152，如6241024竖图最好跑全身像，半身像会拉伸人物导致脖子或者身体拉长问题，以上尺寸横竖都可跑）
采样器：DPM++ 2S a Karras
迭代步数：25以上
脸部修复：建议开启ADetailer
高分辨率修复建议：放大算法：4x-UltraSharp，重绘幅度：0.4-0.75

很多模型是英文名词，而且模型预览界面长一个样（如下图），要记住哪个模型擅长干什么，并且记住推荐参数，不容易。即便记在小本本上，用的时候去找也会觉得麻烦。

所以建议把预览图贴上去。方法是下载模型的时候，顺便把效果图保存下来（与模型使用相同名称保存为png或jpg格式），并与模型放在相同的目录下。这样就可以在webui界面查看了。

点击预览图右上角设置图标。把一些想记的东西，写在笔记栏。这样下次用的时候很方便。（我猜测：一些完善的模型，作者会做这个工作，但很多爱好者只是训练模型，描述、笔记这些内容就懒地写了）

2. 高分辨率修复和ADetailer插件

我用的是MacBook
Air
M1，生成大尺寸图或开启“高分辨率修复”后，感觉机器发热明显。所以一般不想开启，只想在提示词写上“8K、高清晰度、不要扭曲的手”之类的关键词，多次生图后，效果很差，很有挫败感。

现在知道，这是对SD原理似懂非懂导致的。

因为图像是由很多像素点组成的，这些点的密集程度决定了图像的精细度。高分辨率的图像有更多的像素点，所以能够展现丰富的细节。而分辨率低的图像，由于像素点少，一大块整体颜色替代了本应很多像素点才能组成的微妙变化，所以图像就缺乏清晰度和真实感，甚至会扭曲变形。

生成大尺寸图或开启“高分辨率修复”后，强迫AI去计算更多的细节，确保像素点的密度足够，且每个像素点在正确的位置，有正确的颜色，于是就画出了高质量的效果。

也正是因为AI去计算更多细节，所以耗能严重，机器发热。

有一个必备插件是ADetailer。它可以让AI专注于提升脸和手的细节和分辨率，而不必提升整张图的所有细节，从而在保证质量的同时控制性能消耗。

当然需要提醒的是，即便开启了高分辨率修复或使用了ADetailer插件，也会出现脸崩或手崩的情况，只是概率会降低。这是AI生图机制的限制。

3. 为什么写了提示词没效果

我现在的理解不知道对不对。使用1.5等基础大模型，可能需要在提示词中强调高分辨率等内容，而使用训练后的模型或Lora模型，选择了推荐的分辨率、步数等参数，一般就不需要再写了。只需要写你希望生成图片的主体内容就可以了。

不过在玩的过程中，我发现了一个提示词的知识点挺关键的。

不是写什么提示词都有用，比如我想生成一个人物全身像，写“全身”、“全身像”、“从头到脚” ，甚至设置权重都不一定管用。

问题出在哪儿呢？除了看你选择的模型擅长什么之外。问题是其他的提示词都是强调脸、手的关键词，比如“帅气”、“美丽”、“精致的五官”、“高级的妆容”、“短发”、“长发”、“帽子”、“亚洲面容”等等。导致AI会重点关注这些地方，从而降低了画出“全身”的概率。

解决办法是，增加跟全身相关的提示词，比如“短裤”、“牛仔裤”、“板鞋”、“球鞋”、“修长的腿”、“走在人行道上”等，这样AI就会注意到这些要求，从而增加画出“全身”的概率。

AI也会考虑到图像的尺寸，长图画出“全身”的概率更高。即是说9:16的图比16:9、1:1尺寸的图，更容易出现全身。

背后的原理应该是AI会计算图像宽高比以及所有提示词的向量表示，并将这些向量合并或加权求和，生成一个综合的特征表示空间后，根据整体结论出图，而不是某一两个具体的提示词。

最后还得感叹一句，坑挺多的。AI时代不是普通人说一句自然语言就能得到想要结果的。我们对拉车的人说，汽车虽然是自己跑的，但你得学会开。

最后放一些 Stable Diffusion 生成的图片吧。

但由于AIGC刚刚爆火，网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化，看着看着就衔接不上了，要么内容质量太浅，学不到干货。

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》，相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友，可以长按下方二维码，免费领取！

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去，那么我的使命也就完成了：
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合，通过使用AIGC工具库，能更加快速，准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友，可以点击下方卡片免费领取！

精品AIGC学习书籍手册

书籍阅读永不过时，阅读AIGC经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验，结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候，往往书籍源码难以理解，阅读困难，这时候视频教程教程是就很适合了，生动形象加上案例实战，科学有趣才能更方便的学习下去。

在这里插入图片描述

有需要的朋友，可以长按下方二维码，免费领取！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。