AI绘画——从扩散模型到创意无限

FLY AGAIN

已于 2024-09-10 00:55:07 修改

阅读量1.5k

点赞数 16

分类专栏： AIGC 9月挑战·日更博客文章标签：人工智能 AIGC AI作画 ai绘画

于 2024-09-09 23:15:34 首次发布

本文链接：https://blog.csdn.net/Ma_mba_/article/details/142069812

版权

AIGC 同时被 2 个专栏收录

15 篇文章

订阅专栏

9月挑战·日更博客

15 篇文章

订阅专栏

AI绘画魅力四射

如果在两年前我说这些图片是AI生成的，你或许会说我痴人说梦话，但经过了2023年AI绘画热潮后，大量精致而逼真的AI绘画在互联网上铺天盖地。AI绘画技术的快速发展，使得生成的图像质量大幅提升，很多作品已经达到了以假乱真的地步。

生成模型一览众山

这张图通过将「深度生成学习（Deep Generative Learning）的领域」比作一片山地景观，展示了几种主流的深度生成模型。它巧妙地将这些生成模型散布在“山峦”上，表示它们在整个领域中的相对位置和关联性。图中的主要生成模型类别包括：

Variational Autoencoders (VAEs, 变分自编码器)：靠近图的左下方，表示早期的生成模型。这类模型通过学习数据的潜在表示来生成新的样本，但可能在生成的精细度和质量上不如其他模型。
Generative Adversarial Networks (GANs, 生成对抗网络)：位于最左下角，标志着近年来非常流行的一类模型。GANs通过两个网络（生成器和判别器）相互对抗来生成逼真的数据。
Energy-based Models (能量模型)：处于稍高的区域，表示更抽象和较少被使用的模型类别，它通过最小化能量函数来生成数据。
Autoregressive Models (自回归模型)：图中右上方靠近中间的位置。这类模型通过条件概率逐步生成每个数据点，常用于文本生成（例如GPT系列）。
Normalizing Flows (正则化流模型)：位于图的右上方，这类模型通过变换数据分布以实现生成新数据，通常在生成高质量样本时表现出色。
Denoising Diffusion Models (去噪扩散模型)：在最右下角，用箭头特别标出，暗示了它是最前沿的研究方向之一，这类模型近年来在图像生成中表现突出。它们通过逐步去噪来生成样本，已经成为了生成模型中的一个重要趋势。

图的山峦和渐变色调可以理解为从简单到复杂、从经典到前沿的生成模型技术的演变，代表生成学习的不同范畴和技术层次。整体来看，这张图通过视觉隐喻的方式，形象地描绘了深度生成学习领域中各种方法的发展历程和技术层次。

扩散模型横空出世

奠基之作-借鉴热力学

文章的核心思想是，通过非平衡统计物理学的启发，开发一种同时实现灵活性和可处理性的方法。具体来说，这种方法通过一个迭代的前向扩散过程系统地、缓慢地破坏数据分布的结构，然后学习一个反向扩散过程来恢复数据中的结构，从而产生一个高度灵活且可处理的生成模型。这种方法使得在具有数千层或时间步的深度生成模型中能够快速学习、抽样和评估概率，同时也能在学习的模型下计算条件和后验概率。文章还提供了一个开源的参考算法实现。

这篇文章对机器学习领域，特别是无监督学习和生成模型的发展产生了重要影响。

背后基石-DDPM

《Denoising Diffusion Probabilistic Models》是由Jonathan Ho, Ajay Jain, 和 Pieter Abbeel共同撰写的。这篇文章发表于2020年，并在arXiv上发布。

该文的主要内容包括：

图像合成结果：文章展示了使用扩散概率模型（一种受非平衡热力学启发的潜在变量模型）获得的高质量图像合成结果。
训练方法：通过训练一个加权变分界限来获得最佳结果，这个界限是根据扩散概率模型与带有朗之万动力学的去噪得分匹配之间的新颖联系设计的。
模型特点：这些模型自然地采用了一种渐进式有损压缩方案，可以解释为自回归解码的泛化。
性能评估：在无条件CIFAR10数据集上，该模型获得了9.46的Inception得分和3.17的先进FID得分。在256x256 LSUN数据集上，样本质量与ProgressiveGAN相似。
开源实现：文章还提供了该算法的开源实现。

这篇文章在机器学习领域，特别是在图像合成和生成模型方面，具有重要的意义和影响。下面依此讲解文章算法的细节~

DDPM算法流程

扩散模型的工作原理，分为前向扩散过程和反向去噪过程，这是当前深度生成模型中的一种重要方法。图中使用了图像生成的例子来说明扩散模型的主要流程。

前向扩散过程：

从一个真实的图像 x0 开始，逐步加入噪声，经过多次迭代，图像变得越来越模糊和噪声化。
每一阶段都会向图像中添加高斯噪声，最后变成一个完全随机的噪声图像 xT。
这个过程是逐步扩散的过程，图中展示了几个中间状态（例如 x1, x2, ...）。

反向去噪过程：

反向过程从一个完全噪声的图像 xT 开始，利用一个去噪模型（这里展示的是 U-Net 结构），逐步去除噪声，恢复到原始的清晰图像 x0。
这个去噪过程通过学习去除噪声的方式，使得从随机噪声中逐渐生成逼真的图像。
U-Net 是一种常用于去噪和图像生成的神经网络结构，具有对称的编码器-解码器结构，可以在每一层捕捉多尺度的特征信息。

总体解释：

前向扩散：从清晰图像逐步增加噪声，目的是将复杂的真实数据逐渐转化为简单的分布（如高斯噪声）。
反向去噪：从随机噪声开始，通过逐步去噪恢复出高质量的生成图像。

这种方法的核心思想是通过构建一个可逆的扩散-去噪过程，在保证生成图像质量的同时提高模型的稳定性和多样性。

反向去噪训练模型

如图展示的是一个与扩散模型相关的训练算法伪代码（Algorithm 1）。该算法的目的是通过反向去噪过程来训练模型，以生成数据。以下是对各个步骤的解释：

这个算法的核心是在每个时间步 t 采样一个带噪声的样本，并且通过梯度下降来优化模型，让它学习如何从带噪声的样本中恢复原始数据。通过不断重复这个过程，模型最终可以学会如何从随机噪声生成高质量的数据。

采样生成图像

如图描述的是一个名为“Algorithm 2 Sampling”的算法，它是一个用于生成样本的算法，特别是在概率模型中。这个算法看起来是基于马尔可夫链蒙特卡洛（MCMC）方法中的扩散过程，用于生成符合特定分布的样本。下面是对算法步骤的逐条解释：

这个算法的目的是生成一个随机样本 x0，该样本符合目标分布，即可生成图像的数据样本。

声名鹊起-LDM

从DDPM到LDM

DDPM（缺点）

像素空间进行，计算代价昂贵
强大的DM优化需要数百个GPU天(eg：150~1000 V100 days)

LDM（改进）

有限计算资源，保留生成质量和灵活性
强大灵活的生成器，允许多条件输入
可以生成高清图像

不仅如此，LDM还允许多条件输入

类别(a dog/a cat)
文本(文生图, fig 1)
图像(图生图)
布局(fig 2)
空间(fig 3)

此外还支持多任务图像合成

无条件图像生成
图像修复(fig 4)
超高分辨率
语义合成 ...

一探LDM原理

Latent Diffusion Models (LDMs, 潜在扩散模型) 是一种扩展了传统扩散模型的生成方法，通过在潜在空间（latent space）中进行扩散操作，来提高生成效率和质量。传统扩散模型直接在像素空间进行去噪生成，但这种方式在高分辨率图像生成时计算开销较大。LDM通过首先将高维数据映射到低维潜在空间，再在该空间中进行扩散和去噪，从而显著提高生成的计算效率。

1. LDM的基本流程

LDM的生成流程可以分为以下几个步骤：

2. LDM的优势

效率提升：相比传统扩散模型在像素空间中直接进行操作，LDM通过在低维潜在空间中进行去噪，大大减少了计算的复杂性和资源消耗。
高分辨率生成：在潜在空间中操作可以帮助模型生成更高分辨率的图像，而不会增加过多的计算量。潜在空间往往比像素空间更紧凑，能够更好地捕捉数据的全局特征。
可控生成：LDM可以通过在潜在空间中引入条件信息来实现可控生成。比如，可以在扩散模型中嵌入文本提示、类别标签等，以生成符合特定条件的图像。

简而言之LDM的优势由以下方式发展

1、降低时间复杂度

将扩散模型用于预训练自编码器的潜在空间中
感知压缩（消除与感知无关的细节）
潜在扩散（图像生成）

2、允许多模态输入

在模型架构中引入交叉注意力机制
将transformers连接到U-Net骨架网络中

LDM特别适合高分辨率生成任务，比如图像生成、图像修复、图像超分辨率等任务。它还可以与文本等多模态信息结合，生成符合特定描述的图像。在最近的工作中，LDM被应用于Stable Diffusion等大规模图像生成系统中，取得了显著的效果。

LDM 和 Stable Diffussion

LDM 本身是由 CompVis 提出并联合 Runway ML进行开发实现，后来 Stability AI 也参与进来并提供计算资源，使用CLIP作为文本编码器，在LAION-5B的子集上训练，联合做了一个预训练的 LDM 模型，称为 Stable diffusion（2022年8月开源，10月公布v2.0，23年7月发布SDXL 1.0，今年上半年右发布最新版本SD v3）

AI作图百花齐放

Stable Diffusion

Stable Diffusion 是一种基于扩散模型的生成式深度学习模型，主要用于图像生成任务。它自发布以来，经历了多个版本的迭代和发展。以下是各个主要版本的介绍：

1. Stable Diffusion v1 系列 (2022年8月发布)

Stable Diffusion v1 是第一个被广泛应用的版本，由 Stability AI 推出，开源社区的关注让它迅速火爆。这一版本主要基于扩散模型和潜在空间的生成技术，能够在给定文本提示下生成高质量的图像。其特点包括：

高效性：相较于早期的扩散模型，Stable Diffusion 显著提升了计算效率，降低了对硬件的需求，支持消费级 GPU 生成图像。
高质量的图像输出：它能够生成精细度较高的图像，尤其擅长于艺术风格图像和抽象概念的表现。
训练数据：模型是通过从互联网收集的海量图像-文本对进行训练的，因而具备了强大的泛化能力。

子版本：

v1.1：主要是修复了初期版本中的一些小问题。
v1.2-v1.4：进行了一些微调和优化，包括对生成图像的细节提升。
v1.5：这是 v1 系列中最为成熟的一个版本，提升了图像生成质量，修复了部分生成结果的失真问题。

2. Stable Diffusion v2 系列 (2022年11月发布)

Stable Diffusion v2 引入了一些关键的新特性和改进：

改进的采样方法：v2 使用了一种称为 "Euler a" 的新采样器，使得图像生成速度更快，且生成图像质量更高。
文本编码增强：v2 在文本提示解析方面进行了改进，能够更好地理解复杂的文本提示，生成更符合语义的图像。
新功能：v2 增加了对图像超分辨率和反卷积的支持，即通过给定低分辨率图像生成高分辨率版本。
安全性改进：v2 在生成内容时加入了更多的安全性控制，防止生成有害或不适当的图像。

子版本：

v2.1：解决了模型在特定情况下生成图像质量不稳定的问题，进一步提升了细节处理能力。

3. Stable Diffusion XL (2023年发布)

Stable Diffusion XL 是 v2 系列的进一步扩展，专注于生成更大、更高分辨率的图像，并提高了生成速度和质量。

扩展的网络架构：XL 版本显著扩展了模型的参数规模，能够处理更多细节、颜色、光影和场景的复杂性。
多功能性：它不仅支持从文本生成图像，还支持图像到图像（img2img）、深度引导图像生成等功能。
优化的用户体验：XL 版本对生成界面和使用体验做了更大优化，使得非技术用户也能轻松使用。

4. Stable Diffusion v3

Stable Diffusion 3是最新的版本，采用了与Sora相同的DiT（Diffusion Transformer）架构，支持多主题提示，文字书写效果也得到了改进。Stable Diffusion 3是一个模型系列，参数量从800M到8B不等，可以在多种设备上运行，降低了AI大模型的使用门槛。在人类偏好的评估中，Stable Diffusion 3优于其他先进的文本到图像生成系统。

DALL-E

DALL-E 是 OpenAI 开发的一个生成式 AI 模型，能够基于文本提示生成高质量的图像。自首次发布以来，DALL-E 经历了多个版本的迭代，模型的能力、生成图像的质量以及灵活性都得到了显著提升。以下是 DALL-E 各个主要版本的发展历程：

1. DALL-E 1 (2021年1月发布)

DALL-E 1 是 DALL-E 系列的首个版本，展示了文本生成图像的创新能力。它结合了 GPT-3（语言模型）的架构和扩散模型的技术，能够基于简单的文本提示生成多种风格和内容的图像。

特点：

文本到图像的开创性应用：这是首次展示生成模型可以将自然语言提示转换为高质量的图像。
多样性和创造性：DALL-E 1 展示了模型生成不同类型的场景、对象、艺术风格以及拟人化等复杂概念的能力。
生成逻辑有时不完善：在一些复杂的场景描述中，生成的图像可能会出现语义偏差或细节混乱。

2. DALL-E 2 (2022年4月发布)

DALL-E 2 是对 DALL-E 1 的重大升级，克服了早期版本的一些局限性，同时极大提升了图像生成的质量和准确性。

关键改进：

分辨率和细节的显著提升：DALL-E 2 能够生成分辨率更高、细节更丰富的图像，具有极高的现实感。
CLIP 模型的引入：DALL-E 2 使用 CLIP（Contrastive Language–Image Pretraining）模型，能够更好地理解和关联文本与图像，这使得生成的图像与文本提示更加一致。
图像编辑能力：除了从零生成图像外，DALL-E 2 还引入了图像编辑功能，用户可以修改特定区域，或根据新的文本提示更改图像中的部分元素。
现实感和艺术性的平衡：它既可以生成高度现实的图像，也可以根据需要生成抽象、艺术性的视觉效果。

3. DALL-E 3 (2023年10月发布)

DALL-E 3 在生成图像的文本一致性和用户体验方面进行了进一步的优化。这一版本结合了 GPT-4 的能力，并针对图像生成进行了专门优化，使其能够理解更复杂、更细致的文本提示。

核心升级：

更好的文本理解能力：DALL-E 3 大幅提升了对复杂场景和详细描述的理解能力，生成图像与输入文本的匹配度显著增强。
无缝嵌入 GPT-4：用户可以通过 GPT-4 与 DALL-E 3 进行自然语言互动，提出更加复杂和具体的请求，如“生成一个清晨的海滩场景，阳光照在波浪上”等，模型能够精准生成这些图像。
处理更复杂的场景：DALL-E 3 能够更好地处理涉及多人物、多物体以及场景动态变化的复杂提示，这在前几个版本中较为困难。
"Inpainting" 功能增强：DALL-E 3 的图像编辑功能更加灵活，允许用户重新绘制或修改图像中的细节，如增加新元素或改变光影效果。
减少不良生成：DALL-E 3 强调了在生成内容时的安全性，避免生成不合适的图像或违背用户意图的内容。

Imagen

Imagen 是 Google DeepMind 开发的一系列生成图像的深度学习模型。与其他文本到图像模型类似，Imagen 旨在将自然语言描述转换为高质量的图像。以下是 Imagen 各个版本的发展迭代过程的简要介绍：

1. Imagen (2022年5月发布)

Imagen 是 Imagen 系列的第一个版本，它展示了在文本到图像生成方面的显著进展。

核心特点：

高分辨率图像生成：Imagen 能够生成高分辨率的图像，质量优于许多早期的生成模型。
文本到图像的转换能力：基于输入的自然语言描述，Imagen 生成符合描述的图像，展示了优秀的文本理解和图像生成能力。
CLIP 技术应用：Imagen 使用了 CLIP（Contrastive Language–Image Pretraining）技术，以增强模型对文本和图像之间关系的理解，提高了图像的文本一致性。
基于扩散模型：Imagen 采用了扩散模型（diffusion model）的架构，生成的图像质量较高，细节丰富。

2. Imagen 2 (2023年4月发布)

Imagen 2 是对 Imagen 的重大升级，提升了生成图像的质量和功能性。

关键改进：

分辨率和细节的提升：Imagen 2 能够生成更高分辨率和更细致的图像，改善了早期版本中的一些生成瑕疵。
增强的图像理解和生成：模型的文本理解能力得到增强，能够生成更符合复杂描述的图像。
改进的采样技术：引入了更先进的采样技术，提高了生成速度和图像质量。
图像编辑功能：Imagen 2 提供了更灵活的图像编辑功能，允许用户修改图像中的特定元素，例如调整背景、添加物体等。

3. Imagen 3 (2023年10月发布)

Imagen 3 是最新的版本，代表了在生成图像质量和用户互动方面的进一步进步。

主要升级：

更高的生成准确性：DALL-E 3 的文本理解能力显著提高，生成的图像与描述的匹配度更高。
增强的图像生成能力：Imagen 3 在生成复杂场景和细节方面表现更为出色，能够处理更具挑战性的生成任务。
无缝集成 GPT-4：与 GPT-4 的集成提升了模型的交互能力，用户可以通过自然语言进行更复杂的指令。
高级编辑功能：改进了图像编辑工具，支持更多图像细节的调整和增强，例如更精确的区域编辑和效果应用。
安全性和道德考虑：对生成内容的安全性和道德性进行了进一步改进，减少了生成不适内容的风险。

Imagen 系列展示了在生成图像领域的技术进步，每个版本都在不断提升图像的质量、生成的准确性以及用户体验。

Midjourney

Midjourney是一个由Midjourney研究实验室开发的人工智能程序，它可以根据文本提示生成图像。这个工具在2022年7月12日进入公开测试阶段，用户可以通过Discord的机器人指令进行操作。Midjourney的功能包括但不限于：

人像卡通化：将人物照片转换成卡通形象。
轮廓生成：根据文字描述生成图像轮廓。
色彩生成：利用GAN模型生成具有艺术感的彩色图像。
视频换脸：对视频中的人物面部进行换脸操作。
视觉问答：通过图像识别和自然语言处理技术，对图像进行问题回答。
人脸合成：合成不同人物的面部特征，生成新的面孔。

Midjourney的最新版本：

v6.1：这个版本在图像质量上进行了优化，图像更清晰锐利，增强了纹理、皮肤以及8-bit像素画的表现效果。它还改进了生成内容与提示词的一致性，提高了英文文本内容的正确率，并优化了默认美学风格，使色彩更明亮鲜艳。此外，v6.1还提升了生成速度，并调整了--q参数的范围，允许用户控制生成图像所消耗的GPU时间，从而在速度和细节之间做出选择。个性化模型也得到了改进，提供了更准确和惊喜的效果。

Midjourney的收费方式分为不同的会员等级，包括10美元、30美元和60美元，不同等级对应不同的使用需求和功能。此外，还提供年费套餐，相对于按月付费更为便宜。

Midjourney的优点包括易于上手、模型生成质量高、对初学者友好、基于Discord社区机器人的便捷性。缺点则包括非开源性、插件较少、以及完全收费的模式。

Midjourney社区准则旨在保持平台的友好和安全，适用于任何使用Midjourney Bot的地方，包括Discord、Twitter和其他社交媒体。用户可以通过Discord的bot频道使用/imagine指令来生成图像，并通过不同的按钮进行图像的升级、变体生成和评价。

总的来说，Midjourney是一个强大的AI图像生成工具，它通过不断的迭代和更新，提供了更高质量的图像生成服务，并在社区中建立了良好的互动环境。