【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

稳定扩散生成模型(Stable Diffusion)是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像
Stable Diffusion 是基于latent-diffusion 并与 Stability AI and Runway合作实现的

图5 基于提出的LDM模型的文本到图像合成示例。

在这里插入图片描述
模型是在LAION 数据集上训练的。使用200个DDIM迭代和η = 1.0生成的样本。我们使用无条件指导[32]与s = 10.0。

需要先了解的概念

扩散模型如何应用在图像中(Diffusion Models)

扩散模型包括两个过程:前向过程(forward process)和反向过程(reverse process),
其中前向过程又称为扩散过程(diffusion process)。
扩散过程是指的对数据逐渐增加高斯噪音直至数据变成随机噪音的过程

什么是 latent-diffusion模型?

diffusion 与 latent diffusion的区别,可以理解为 diffusion直接在原图进行图片的去噪处理,而 latend diffusion 是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。

理论来源于论文DDPM

李宏毅老师讲解Diffusion Models课件: | 视频

核心在于训练unet结构noise预测器

主体结构都是在Unet模型作 骨干网络 (backbone), 下图为实际DDPM的结构
在这里插入图片描述
举例说明
在这里插入图片描述

Denoise模组:noise predicter

在这里插入图片描述

训练过程

最原始的过程
在这里插入图片描述

论文中训练方法描述:
在这里插入图片描述
在这里插入图片描述

论文概述

原图3:网络结构。

通过连接和更一般的交叉注意力机制,来调节条件 LDMs
在这里插入图片描述

结构解析12-知乎小小将:

基于latent的扩散模型的优势在于计算效率更高效,因为图像的latent空间要比图像pixel空间要小,这也是SD的核心优势。文生图模型往往参数量比较大,基于pixel的方法往往限于算力只生成64x64大小的图像,比如OpenAI的DALL-E2和谷歌的Imagen,然后再通过超分辨模型将图像分辨率提升至256x256和1024x1024;而基于latent的SD是在latent空间操作的,它可以直接生成256x256和512x512甚至更高分辨率的图像。

SD主体结构如下图所示,主要包括三个模型:autoencoder (variantional auto-encoder):encoder将图像压缩到latent空间,而decoder将latent解码为图像;CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition;UNet:扩散模型的主体,用来实现文本引导下的latent生成

在这里插入图片描述

秋叶解析SD结构

从工程角度解析stable-diffusion:https://www.bilibili.com/video/BV1x8411m76H/
在这里插入图片描述
SD中的实际推理流程
在这里插入图片描述

独立研究员-星空解析

AI绘画 Stable Diffusion 文生图脚本 逐行代码解读 注释+图解
在这里插入图片描述

SD的条件推理链路

文本输入 > BERT Tokenization 分词 > CLIP Text Encoder (文本编码器) > embediing (表示输入数据的特征空间中连续且稠密的高维向量)

在这里插入图片描述

图生图的框图流程

B站 研究员-星空: 图生图简易代码
在这里插入图片描述

摘要

通过将图像形成过程(image formation process)分解为( by decomposing )去噪自编码器的连续应用(a sequential application of denoising autoencoders),扩散模型DMs),实现了对图像数据的最先进的合成结果。
此外,他们的公式(formulation)允许一个指导机制(a guiding mechanism)来控制图像生成过程,而无需再训练.

然而,由于这些模型通常直接在像素空间中(pixel space)运行,强大的DMs模型的优化通常需要数百天的GPU运算,而且由于顺序评估(sequential evaluations),推理是昂贵的。

为了了使DM能够在有限的计算资源上进行训练,同时保持(retaining)其质量和灵活性,我们将其应用于强大的预训练自动编码器(autoencoders)的潜在空间中(latent space)。
与之前的工作相比,在这种表示上(representation)训练扩散模型首次允许在降低复杂度和保持细节复杂度之间达到一个接近最优的点(near-optimal),大大提高了视觉保真度.。。。

. 通过在模型架构中引入交叉注意层(cross-attention layer),我们将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或边界框,以卷积方式和高分辨率的合成成为可能。

我们的潜在扩散模型LDMs)在图像内绘制和类条件图像合成方面获得,并且在各种任务上具有高度竞争力的性能,包括文本到图像合成无条件图像生成超分辨率,同时与基于像素的DMs(pixed-based DMS)相比,显著降低了计算需。

论文贡献

  1. 与纯粹的基于transformer的方法相比,我们的方法更适合于(more graceful to )高维数据,因此可以在压缩级别上工作,这提供了比以前的工作更可靠和详细的重建,应用于百万像素图像(megapixel)的高分辨率合成。
  2. 我们在多个任务(无条件图像合成、图像修复(inpainting)、随机超分辨率((stochastic super-resolution)))和数据集上实现了具有竞争力的性能,同时显著降低了计算成本(significantly lowering
    computational costs)。与基于像素的扩散方法相比,我们也显著降低了推理成本。
  3. 与之前工作相比,不需要同时对重建和生成能力进行精细的加权(requiring delicate weighting),这确保了非常准确的重建(faithful reconstructions),并且对潜在空间的正则化要求非常低(requiring very little regularization)
  4. 我们设计了一种基于交叉注意( cross-attention)的通用条件输入机制( a general-purpose conditioning
    mechanism),实现了多模态训练。我们使用它来训练类条件的模型、文本到图像的模型和布局到图像(n class-conditional, text-to-image, layout-to-image)的模型。

论文原图1 生成图的效果与Dalle-e 、VQGAN比较

在这里插入图片描述

图4 特定类数据集训练合成结构

![在这里插入图片描述](https://img-blog.csdnimg.cn/1818acd0479b40f3a1ef11c462b2409b.png

图8 基于coco目标检测框引导合成

在这里插入图片描述

图10 超分结果

00.

图11 图像修复结果

在这里插入图片描述

DDIM采样

来自论文 [84] 2010.Denoising diffusion implicit models ( 去噪扩散隐式模型 )

  • 去噪扩散概率模型DDPMs: Denoising diffusion probabilistic model)在没有对抗性训练(without adversarial training)的情况下实现了高质量的图像生成,但它们需要多次模拟马尔可夫链(Markov chain)才能生成样本。
  • 为了加速采样,本文提出了去噪扩散隐式模型(DDIMs),这是一种更有效的迭代隐式概率模型( denoising diffusion implicit models),具有与DDPMs相同的训练过程。一类更有效的迭代隐式概率模型(iterative implicit probabilistic models ),具有与DDPM相同的训练过程。
  • DDPMs中,生成过程(generative process)被定义为一个特定的马尔可夫扩散过程的反向过程(as the reverse of a particular Markovian diffusion process)。
  • 我们通过一类非马尔可夫扩散过程来推广DDPMs,从而得到相同的训练目标。这些非马尔可夫过程可以对应于确定性的生成过程,从而产生能够快速产生高质量样本的隐式模型。
  • 我们的经验(empirically)证明,与DDPMs相比,DDIMs可以快速产生10×到50×的高质量样本,允许我们在样本质量上权衡计算,直接在潜在空间中执行有语义意义的图像插值,并以非常低的误差重建观测(reconstruct observations)

三、具体内容

1引言

图像合成需要巨大的计算资源。特别是复杂的、自然的场景的高分辨率图像合成,
目前主要是通过扩大基于可能性的(likelihood-based)模型,可能包含自回归(AR)transformers 的数十亿个参数,相关论文为:

GANs
相比之下,GANs的有希望的结果已被揭示大多局限于可变性相对有限的数据 (limited variability),因为它们的对抗性学习过程不容易扩展(not easyily scale to)到建模复杂的、多模态分布(multi-modal distributions),相关研究

Diffusion
最近,扩散模型[82],基于自动编码器去噪层次,已经显示了令人印象深刻的成就

结果在图像合成[30,85]和超过并定义了[7,45,48,57],

最先进的类条件图像合成[15,31]和超分辨率[72]。

此外,即使是无条件的 DMs,也可以很容易地应用于诸如图像修复和上色等任务[85]

基于冲程的(strike-base)合成[53]

持续更新中。。。

### 回答1: Q: 什么是“调色板:图像到图像扩散模型”? A: 调色板:图像到图像扩散模型是一种图像处理技术,它利用调色板(一组预定义的颜色)将一张图像转换成另一张图像。这种技术通常使用扩散模型,即在图像中扩散颜色以达到所需效果。这种方法可以应用于许多应用场景,例如图像增强和风格迁移。 ### 回答2: Palette是一个图像到图像扩散模型,它是一种生成模型,以像素为单位从输入图像中生成输出图像。使用深度学习技术,Palette能够自动生成与原始图像相似但不相同的图像,从而为艺术创意和设计领域提供了新的可能性。Palette基于卷积神经网络,其特点是细粒度的像素级平滑,使得生成的图像具有更高的真实感。 Palette的工作原理为,通过输入图像所包含的像素信息,生成一个低分辨率的初始图像,然后通过逐层的向上采样过程,不断提高分辨率并增加图像的细节信息。在这个过程中,Palette会对图像的颜色和纹理进行抽象和重新组合,从而产生出各种不同的图像效果。根据不同的训练数据和训练方式,Palette可以生成不同的风格和效果,比如艺术风格、手绘效果等。 Palette可以应用于许多领域,比如品牌设计、个人艺术创作、影视特效等。在品牌设计方面,Palette可以帮助品牌创造出独特的视觉效果,从而提高品牌认知度和影响力。在个人艺术创作方面,Palette为艺术家提供了全新的创作思路,他们可以使用Palette生成各种不同风格的图像,从而拓宽他们的创作领域。在影视特效方面,Palette可以帮助电影制作团队生成各种特殊效果的图像,从而使电影更为逼真和震撼。 总之,Palette是一个生成模型,其特点是在像素级别上对图像进行平滑和重组,从而生成各种不同风格和效果的图像。Palette的应用领域非常广泛,如品牌设计、艺术创作和影视特效等。未来,Palette将继续发展,为我们带来更多的惊喜和创新。 ### 回答3: palette: image-to-image diffusion models是一种基于图像扩散模型的颜色调色板生成方法。这种方法旨在从给定的目标图像中提取一组相似的颜色,以便在新的图像中使用。这些颜色可以是某个图像的主要色调,也可以是某个颜色调色板中的色彩。 palette: image-to-image diffusion models方法的基本思路是通过使用图像扩散模型,使得每个像素都可以“扩散”到其周围的像素上。这种扩散能够按照某种规则,将相邻的像素颜色进行平滑化处理,从而能够生成更加自然的颜色渐变效果。使用这种方法可以很快地生成一个适合于目标图像的颜色调色板。 palette: image-to-image diffusion models方法的优点在于可以自动地从目标图像中提取相似颜色,并根据这些颜色生成一个合适的颜色调色板。这种方法可以避免手动选择颜色,从而节省时间和精力。此外,使用图像扩散模型的方法可以使所生成的颜色调色板更加平滑,同时可以保持颜色之间的相关性,从而更加适合于图像处理任务。 需要注意的是,palette: image-to-image diffusion models方法是一种机器学习方法,需要使用具有相关背景知识的开发人员进行开发和调试。因此,在使用这种方法之前,需要对机器学习和图像处理等方面有一定的了解和掌握。同时,在实际应用中,也需要根据特定的需求对方法进行具体的调整和优化,以便获得最佳的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值