回归基础，stable diffusion基本概念介绍！

高级绘画师PP

于 2024-09-29 09:28:20 发布

阅读量477

点赞数 7

文章标签： stable diffusion AI作画 AI绘画 ai 人工智能

本文链接：https://blog.csdn.net/m0_71746299/article/details/142627498

版权

在当今科技的蓬勃发展中，生成式人工智能（AI）正变得异常炙手可热。无论是在绘画领域还是大语言模型和语音方向，生成式AI都展现出了令人惊叹的能力。其多样化的应用领域让人们为之着迷，从艺术创作到语言交流，无所不包。随着技术的不断进步，生成式AI正以其引人入胜的特点吸引着全球范围内的关注和热议。无论是专业人士还是普通用户，都对这一领域的发展保持着极大的兴趣。让我们一起深入探索生成式AI的奇妙世界，看看它如何在各个方向上展现出惊人的可能性。

在绘画模型中,有VAE(变分自编码器),Flow-based model,GAN,以及最近最火的diffusion扩散模型.在过去几年里，扩散模型（Diffusion Models）作为一种生成模型，已经变得非常受欢迎，而且这并非没有原因。仅在2020年，就有几篇重要的论文向世界展示了扩散模型的能力，例如在图像生成方面击败了生成对抗网络（GANs）。

最近，从业者们还可以在OpenAI最近发布的图像生成模型DALL-E 2中看到扩散模型的应用。扩散模型采用了一种独特的方法，这也是它们受欢迎的原因之一。与传统的生成模型专注于对数据分布进行明确建模不同，扩散模型通过对数据在时间上的演变进行建模。

这里将解释一下扩散模型中最火的stable diffusion,一般我们谈论生成扩散模型,或者是AI绘画时一般谈论的也是它.

事实上这个模型的由来涉及到三组研究人员分别来自stability.ai,runwayml以及CompVis.当你下载stable diffusion模型时一般就会从stability以及compvis里下载.

模型介绍

稳定扩散（Stable Diffusion）具有多种用途，可以以多种不同的方式使用。首先，让我们着重介绍从文本生成图像（text2img）方面。上面的图片展示了一个文本输入的示例以及生成的图像结果。除了文本到图像的转换，另一种主要的使用方式是通过使其修改图像（输入为文本+图像）。

稳定扩散是由多个组件和模型组成的系统，而不是一个整体的模型。

当我们深入了解其内部机制时，首先可以观察到一个文本理解组件，它将文本信息转化为数值表示，以捕捉文本中的核心信息。

文本编码器

我们可以说这个文本编码器是一个特殊的Transformer语言模型（技术上来说，是CLIP模型的文本编码器）。它接收输入文本并输出表示文本中每个单词/标记的数字列表（每个标记对应一个向量）。

然后，这些信息被提供给图像生成器，它本身由几个组件组成。包括Image information creator和 Image Decoder

Image information creator

这个组件会运行多个步骤来生成图像信息。在稳定扩散的接口和库中，这个步骤通常被称为"步数"，默认设置为50或100。

图像信息生成器完全在图像信息空间（或潜在空间）中运行。稍后我们会详细讨论这意味着什么。这个特性使得它比之前在像素空间中工作的扩散模型更快。从技术上讲，这个组件由一个UNet神经网络和一个调度算法组成。

"扩散"一词描述了这个组件中发生的过程。它是逐步处理信息的过程，最终导致生成高质量图像（由下一个组件，即图像解码器完成）

Image Decoder

图像解码器(Image Decoder)根据从图像信息生成器(Image information creator)获取的信息绘制一幅图像。它只在整个过程的最后运行一次，以生成最终的像素图像。

通过上述内容，我们可以看到稳定扩散由三个主要组件（每个组件都有自己的神经网络）组成： 1. ClipText用于文本编码。输入：文本。输出：77个标记嵌入向量，每个向量维度为768。

UNet + Scheduler用于逐步处理/扩散信息在信息（潜在）空间中。输入：文本嵌入和由噪声组成的起始多维数组（结构化数字列表，也称为张量）。输出：处理后的信息数组。
自编码解码器使用处理后的信息数组绘制最终图像。输入：处理后的信息数组（维度：(4,64,64)）。输出：生成的图像（维度：(3, 512, 512)，即红/绿/蓝通道、宽度和高度）。