【AI绘画教程】SSD-1B 与 SDXL 1.0：详细比较-CSDN博客

本文链接：https://blog.csdn.net/weixin_41446370/article/details/140767040

自从图像生成模型发布以来，数字创意世界就发生了翻天覆地的变化。这些模型具有令人难以置信的能力，可以通过视觉震撼的图像将想法变为现实。今天，我们的重点是探索和比较文本到图像生成领域的两个奇迹，即 SDXL 1.0 和 SSD-1B。

在这里插入图片描述

你问，为什么要进行这种比较？好吧，随着这些模型的可能性不断扩大，了解这些模型中的每一个的优点和功能有助于我们做出明智的决定，确定哪种模型更符合我们的特定创意需求。在这篇文章中，我们将比较两个这样的模型，通过定义我们的比较具体标准来确保公平的评估。在深入研究细节之前，让我们先了解一下每个模型的架构。值得注意的是，我们致力于在评估中实现公平性，并为各个模型设置了最佳设置，以保证公平的比较。

架构

SDXL 1.0 版本：

在这里插入图片描述

由 Stability Diffusion 提出的 SDXL 模型具有大约 26 亿个参数，这是通过合并更多 U-Net 参数实现的。与其前身 Stable Diffusion 的显着不同在于变压器块的异质分布，与早期的均匀分布不同。

SDXL 模型的几个新变化是其特征。一个关键的增强功能涉及更实质性的文本调节编码器和 OpenClip 的集成，有效地将文本信息整合到图像生成过程中。另一个值得注意的新增功能是引入了“大小调节”功能，其中原始训练图像的宽度和高度用作条件输入。

至关重要的是，SDXL引入了第二个稳定扩散模型，该模型专门设计用于处理高质量和高分辨率的数据。这些进步共同将 SDXL 模型定位为图像生成领域的强大且多功能的工具。

SSD-1B

在这里插入图片描述
SSD-1B 模型配置了 13 亿个参数，与基础 SDXL 模型相比具有战略性减少。为了实现更流线型的尺寸，该架构是通过删除特定层来构建的，同时一丝不苟地保留图像质量。值得注意的是，在注意层内移除变压器模块被证明对质量没有显着影响。

此外，中间块的 Attention 和 Resnet 层已被省略，因为研究表明它们对整体质量的影响有限。Unet 模块经历了一个渐进的蒸馏过程，在每个阶段逐渐缩短它，然后训练模型。总共成功移除了 40 个变压器模块和 1 个 Resnet 模块，从而实现了模型更紧凑的架构。

这些修改共同导致模型的大小减小了 50%，同时推理和微调过程的速度显着提高了 60%。

推理速度：

与 SDXL 模型相比，SSD-1B 模型在推理和微调速度方面都提高了 60%，令人印象深刻。即使在单单位批量大小下，SSD-1B 也以令人印象深刻的每秒 16.02 张图像（It/s）脱颖而出，比 SDXL 的 10.26 It/s 速度显着提高了 56%。随着我们扩大批量大小，这种性能提高的趋势仍然存在。

在四个单元时，SSD 保持 4.78 It/s 的速度，超过了 SDXL 的 3.03 It/s。SSD 继续保持领先地位，批量大小增加到 8 个和 16 个，分别达到 2.44 和 1.21 It/s。这不仅展示了对更高工作负载的弹性，而且还展示了一致的性能阈值。相比之下，在相同条件下，SDXL 的吞吐量降至 1.54 和 0.7519 It/s。

在这里插入图片描述
两种文本到图像模型的参数是相同的。因此，我们将从了解这些参数开始，然后在比较它们时了解每个模型的最优值。

指导量表：

指导量表对于确保我们生成的图像与给定的文本提示匹配至关重要。如果我们增加此参数的值，则图像将与文本超级连接，但在此过程中可能会失去一些多样性和整体质量。

步骤：

此参数是关于模型清理噪声以生成更好图像的次数。想象一下，从文本中的一些随机噪声开始，模型会经历一个循环，通过去除一些噪声来不断优化图像

步骤的值越高，生成的高质量图像就越多。

调度程序（Schedulers）

在 Stable Diffusion 管道的上下文中，调度器是与 UNet 组件一起工作的算法。这些调度员的主要工作对于去噪过程至关重要，该过程是逐步发生的。这些步骤对于将随机的嘈杂图像转换为高质量图像非常重要。

调度员的工作是系统地消除图像中的噪声，并在此过程中创建新的数据样本。

负面提示：

否定提示允许用户定义在生成图像时不提供任何输入时他们不想看到的图像类型。这些提示可作为图像生成过程的指南，指示它根据用户提供的文本排除某些元素。

通过使用负面提示，用户可以有效地阻止特定对象和样式的生成，解决图像异常问题，并提高整体图像质量。

在比较这两种模型时，我们将确保使用以下负面提示来使这种比较更公平。

worst quality, normal quality, low quality, low res, blurry, text, watermark, logo, banner, extra digits, cropped, jpeg artifacts, signature, username, error, sketch, duplicate, ugly, monochrome, horror, geometry, mutation, disgusting , NSFW, nude, censored.

除了我们想尝试各种提示来评估其功能的示例外，我们还将采用特定的负面提示来衡量每个模型在避免不需要的元素和遵守用户偏好方面的处理能力。

两种型号之间的图像比较：

现在，我们将根据几个关键因素来了解这两种模型是如何叠加的，我们想根据以下因素来比较它们

Prompt adherence：模型对给定指示的遵守程度。
艺术风格：模特可以产生的艺术风格的种类和质量。
功能：模型的整体性能和功能。

通过观察这些方面，我们可以更清楚地了解每种模型带来的东西。顺便说一句，根据我们的发现，各个模型中的所有参数值都是固定的，可以详细查看 SDXL 的最佳设置和 SSD 的最佳设置。是时候进行实验了，看看会发生什么！

Prompt adherence

提示依从性是指模型遵循提供的文本说明创建图像的程度。但是，需要注意的是，在文本到图像生成模型中，没有特定的框架或评估指标来精确衡量提示依从性的质量。精心设计的提示可以作为一种路线图，引导模型生成与预期愿景一致的图像。虽然没有一种放之四海而皆准的方法来评估提示质量，但创意和清晰的提示通常有助于获得更准确和视觉上吸引人的结果。

让我们从简单的提示开始，然后转到非常详细的提示，这些提示指定了图像中各个细微差别。

Prompt : Woman

在这里插入图片描述
Prompt : A child walking down the road

在这里插入图片描述
到目前为止，我们已经观察到一些简单的提示在起作用，注意到与 SDXL 模型相比，SSD 模型往往提供更多的特写镜头。现在，让我们探索一组更复杂的提示，看看这两种模型如何处理复杂性。

Prompt : Poker chipmunk cowboy drinks beer at speckled pink cyber pyramid, cinema lighting

在这里插入图片描述

Prompt : A cute grey cat in a boat floating in a starry night sky

在这里插入图片描述

SDXL 型号生成的图像具有精致和抛光的外观，展示了高水平的复杂性。另一方面，SSD 型号生成的图像经常表现出生动和光芒四射的质量。

Prompt : Cute lofi girl in front of his computer in her cozy and messy room, unreal engine 5 render, gorgeous lighting, pastel pink hues, 8k render, realistic scenic render.

在这里插入图片描述
Prompt : an intimidating woman, on a rooftop, leather jacket, tattoos, red hair, New York, natural lighting, Nikon D100, RAW photo, film grain, post-processing

在这里插入图片描述
Prompt: Display a mesmerizing cocktail presentation with vibrant colors, meticulously crafted garnishes, and an ambiance that exudes sophistication. The image needs to be visually stunning

在这里插入图片描述
但是，当提供给模型的提示更详细时，我们确实发现 SDXL 模型在遵守提示方面有些困难。

Prompt : Chaotic stunning New York City, skyline, style of tin tin comics, pen and ink. vintage 90’s anime style, black and white, colorful clouds

在这里插入图片描述
Prompt : a girl playing chess against a hooded skeleton on the moon, black hole in the background, Street Art

在这里插入图片描述
两种型号都擅长根据给定的提示制作具有视觉冲击力的图像。但是，值得注意的是，SDXL 模型偶尔会难以完全遵守提供的提示。另一方面，SSD 模型生成的图像不仅展示了充满活力的质量，而且具有丰富的质感，为每件视觉创作增加了深度和细节。

艺术风格：

文本到图像生成模型可以模拟各种艺术风格，无论是捕捉经典绘画的精髓、现代插图，甚至是未来主义的设计。查看这些模型可以处理的不同艺术风格有助于我们全面掌握他们的艺术技能。我们将继续探索这一方面，通过给模型提供各种提示来测试它们的能力，就像我们对之前的标准所做的那样。

Prompt : blog profile image, man, glass, 30s, writing journal, asian, painting, watercolor, left-handed

在这里插入图片描述
Prompt : 8k wallpaper of a beautiful anime adventurer girl wearing gold jewelry in the streets of a city in Western Sahara, intricate detail, 8k, fluid motion, stunning shading

在这里插入图片描述
Prompt : A close up of a cyclops wearing an epic art, in style of art, highly detailed art, ornate dramatic devil wing amulet, detailed digital 2d art, intricate armor, symmetric concept art, face of an black-armored villain, cyberpunk, on a deep red and black mechanic temple

在这里插入图片描述
Prompt : A portrait of a samurai , 4K resolution, anime line art, in the style of Leiji Matsumoto, with clear lines, no shadows, on a pure WHITE background suitable for a adult’s coloring book.

在这里插入图片描述
Prompt : Nike sneaker concept, made out of cotton candy clouds , luxury, futurist, stunning unreal engine render, product photography, 8k, hyper-realistic. surrealism

在这里插入图片描述
比较两种模型生成的图像，两种图像的艺术质量都很高。然而，与SSD-1B产生的图像相比，SDXL的图像在保持高艺术性的同时，明显缺乏纹理和细微差别。在SSD-1B中，图像的深度似乎更为明显。

此外，SSD-1B中的头发、皮肤纹理和物体等方面的细节似乎更加复杂和明显，使其与众不同，而SDXL则难以生成具有深景深的逼真图像。

功能性：

这是关于模型在将文本转换为图像方面的表现，考虑到它可以处理的指令类型及其创造能力。检查功能有助于我们了解模型在哪些方面做得好，以及它可能在哪些方面存在一些限制。

现在，我们将为模型提供具体的指示，例如增加参数值和添加更多负面提示。

例如，假设我们想要一张女孩的特写照片，背景中没有任何模糊。我们将在负面提示中添加“模糊”和“散景”，以避免这些影响。

Prompt : A beautiful blonde 25-year-old with a cruel indifferent expression and looking down on her face, close up
在这里插入图片描述
有趣的是：当我们比较两个模型生成的图像时，即使我们明确说明了我们的意图，SDXL 也会为图像添加模糊效果，而 SSD 则遵循我们的指示。

接下来，我们尝试一些不同的东西，比如荒诞派绘画形式的半色调图案的太阳轮廓。我们将两个模型的指导刻度值增加到 15。

Prompt : Sun profile, Halftone pattern , highly textured, genre-defining , fringe absurdism ,Award winning halftone pattern illustration , simple flowing shapes , subtle shadows, paper texture , minimalist color scheme

在这里插入图片描述

结果：SDXL 按照我们的提示为我们提供了更好的图像，类似于荒诞派的绘画。另一方面，SSD 倾向于创建看起来更像数字艺术的图像，尤其是当我们想要绘画般的纹理时。

接下来，让我们尝试生成一个图像，一个影子人物从黑暗中出现。

Prompt : shadow figure man emerging from the darkness, black and grey gradient, foggy, realistic, 8k, unreal engine, cinematic

在这里插入图片描述
有趣的是，当我们的提示含糊不清时，两种模型都倾向于创建外观相似的角色。

让我们尝试测试两种模型的逼真度能力。

Prompt : beautiful girl standing with beautiful vally in background, age 20, black short hair, waist shot, dynamic pose, smiling, dressed in fashion outfit, beautiful eyes, sweet makeup, 35mm lens, beautiful lighting, photorealistic, soft focus, kodak portra 800, 8k

在这里插入图片描述
Prompt : A realistic photo of a 25 years old woman crying, with brown shiny eyes, dark hair in a ponytail, a deeply depressed expression, rounded cheeks with some freckles, fit strong body, dark illumination, hyperrealistic, hyperdetailed, 8k

在这里插入图片描述
而 SDXL 在这方面则有所欠缺。虽然它能生成高质量的图像，但与固态硬盘相比，头发或面部特征等更精细的细节还达不到要求。

最后，我们探讨了抽象图像以及带有背景和物体的场景，重点关注模型的整体构图能力。

Prompt : 3d cubist-inspired painting of jazz musicians’ instruments set against a black backdrop. fusion of traditional acrylic paint with digital techniques to achieve meticulous attention to detail. incorporate Salvador Dali’s style

在这里插入图片描述
SSD 通常表现出明亮和数字艺术般的质量，而 SDXL 则产生更柔和和饱和的版本。

Prompt : a topdown fantasy map from 90 degrees angle of a market, dnd encounter, in the style of sound art, epic fantasy, Rembrandt lighting, dungeon village fantasy, extremely detailed, photorealistic, octane render, 8 k, unreal engine 5.

在这里插入图片描述
Prompt: An abstract pattern for a book cover with pastel tones, think Eastern Europe abandoned city

在这里插入图片描述
Prompt : a sketch in greyscale of a scene from above depicting a fractured and earthquake devastated city, pencil effect. realistic. high details. harsh lighting.

但是，在某些情况下，两个模型都会遇到困难并且不能很好地描述所需的提示

Prompt : a photo of a cat drawing a flower

在这里插入图片描述
Prompt : bird flying over two vehicles along the road, cinematic

在这里插入图片描述
总体而言，我们发现与SSD模型相比，SDXL缺乏构图，并且在文本到图像的对齐方面存在困难，特别是对于需要高对称性和构图的图像。

结论

总之，文本到图像生成模型在将文本提示转换为视觉组合方面取得了显著的进步。每种模型都为创作过程带来了其独特的优势和细微差别。尽管他们很熟练，但还是出现了一些挑战，例如照片写实主义、构图以及与所提供文本的对齐问题。随着这项技术的发展，我们期待更好的模型和训练方法。探索文本到图像的模型令人兴奋，并通过混合文字和视觉效果来开辟表达创造力的新方法。

这种比较的本质不仅仅是将一个模型宣布为最佳模型;相反，它是对每种模型如何发展和改进的探索。我们发现与 SDXL 相比，SSD 具有更好的文本到图像对齐效果，并且还提高了生成图像的效率。

我会定期在CSDN分享我的学习心得，项目经验和行业动态。如果你对某个领域感兴趣，或者想要了解更多技术干货，请关注我的账号，一起成长！