超级逼真人脸生成，Stable Diffusion的3个关键技巧

最新推荐文章于 2024-07-01 13:39:08 发布

Python学研大本营

最新推荐文章于 2024-07-01 13:39:08 发布

阅读量1.7k

点赞数 22

文章标签： stable diffusion 人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_39915649/article/details/135640580

版权

学习如何使用基础模型生成图像，如何升级到Stable Diffusion XL模型以提高图像质量，以及如何使用自定义模型生成高质量的人物肖像。

微信搜索关注《Python学研大本营》，加入读者群，分享更多精彩

简介

你是否曾想过，为什么别人可以使用AI图像生成技术生成如此逼真的人脸，而你自己的尝试却充满了错误和瑕疵，使它们看起来明显是假的呢？尝试过调整提示和设置，但似乎仍无法与他人的质量相匹配。

在这里，我将带你了解使用Stable Diffusion生成超逼真人脸的3个关键技巧。首先，我们将介绍提示工程的基础知识，帮助你使用基础模型生成图像。接下来，我们将探讨升级到Stable Diffusion XL模型后，如何通过更多的参数和训练来显著提高图像质量。最后，我将为你介绍一种专门用于生成高质量人物肖像而微调的自定义模型。

1. 提示工程

首先，我们将学习如何编写正面和负面的提示来生成逼真的人脸。我们将使用Hugging Face Spaces上提供的Stable Diffusion版本2.1演示。它是免费的，并且可以在不做任何设置的情况下开始使用。

【链接】：hf.co/spaces/stabilityai/stable-diffusion

在创建正面提示时，确保包含图像的所有必要细节和风格。在本例中，我们希望生成一张年轻女子在街上行走的图像。我们将使用一个通用的负面提示，但是可以添加其他关键词以避免图像中的重复错误。

正面提示：“A young woman in her mid-20s, Walking on the streets, Looking directly at the camera, Confident and friendly expression, Casually dressed in modern, stylish attire, Urban street scene background, Bright, sunny day lighting, Vibrant colors”。

负面提示：“disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w, cartoon, painting, illustration, worst quality, low quality”。

我们有了一个良好的开端。图像是准确的，但图像质量可以更好。可以尝试调整提示，但这已经是基础模型能够提供的最好效果了。

2. Stable Diffusion XL

我们将使用Stable Diffusion XL（SDXL）模型生成高质量图像。它通过使用基础模型生成潜在图像，然后使用一个细化器对其进行处理，从而生成详细而精确的图像。

【链接】：hf.co/spaces/hysts/SD-XL

在生成图像之前，我们将向下滚动并打开“Advanced options（高级选项）”。我们将添加一个负面提示，设置种子，并应用细化器以获得最佳的图像质量。

然后，我们将以与之前略有不同的方式编写相同的提示。我们将生成一个年轻的印度女子的图像，而不是普通的年轻女性。

这个结果有了很大的改进。面部特征非常完美。让我们尝试生成其他民族的图像，检查是否存在偏差，并比较结果。

我们得到了逼真的人脸，但所有图片都使用了Instagram滤镜。通常，现实生活中的皮肤并不光滑，而是有粉刺、印记、雀斑和细纹等。

3. CivitAI: RealVisXL V2.0

在这部分，我们将生成带有痕迹和真实肌肤的详细人脸。为此，我们将使用CivitAI的自定义模型（RealVisXL V2.0），该模型经过优化，用于生成高质量肖像。

【链接】：civitai.com/models/139562/realvisxl-v20

可以通过点击“Create（创建）”按钮在线使用该模型；也可以下载它，以在Stable Diffusion WebUI上本地使用。

首先，下载模型并将文件移动到Stable Diffusion WebUI模型目录：C:\WebUI\webui\models\Stable-diffusion。

要在WebUI上显示模型，需要按下刷新按钮，然后选择“realvisxl20…”模型检查点。

我们将从编写相同的正面和负面提示开始，并生成一张高质量的1024X1024图像。

图像看起来非常完美。为了充分利用自定义模型，我们需要更改提示。

新的正面和负面提示可以通过滚动模型页面并点击喜欢的真实图像来获得。CivitAI上的图像具有正面和负面提示以及高级转向功能。

正面提示：“An image of an Indian young woman, focused, decisive, surreal, dynamic pose, ultra highres, sharpness texture, High detail RAW Photo, detailed face, shallow depth of field, sharp eyes, (realistic skin texture:1.2), light skin, dslr, film grain”。

负面提示：“(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), open mouth”。

我们有了一张具有真实肌肤的印度妇女的详细图像。与基础SDXL模型相比，这是一个改进版本。

我们又生成了三张不同民族的图像，以比较结果。结果非常出色，包含皮肤痕迹、多孔皮肤和准确的特征。

结论

生成艺术的进步很快就会达到我们难以区分真实图像和合成图像的程度。这预示着一个可持续发展的未来，任何人都可以通过利用在多样真实数据上训练的自定义模型，从简单的文本提示中创建高度逼真的媒体。快速的进步意味着令人兴奋的潜力，也许有一天，生成一个复制自己肖像和语音模式的逼真视频可能就像输入描述性的提示一样简单。

在本文中，我们了解了提示工程、先进的稳定设计模型以及用于生成高度准确和逼真人脸的自定义微调模型。如果想要得到更好的结果，可以查看CivitAI官网（https://civitai.com/）上提供的各种高质量模型。