（2023，自监督学习，表示条件图像生成，表示扩散模型）通过生成表示进行自条件图像生成

EDPJ，公众号（EDPJ）

已于 2023-12-12 13:14:27 修改

阅读量726

点赞数 4

分类专栏：论文笔记文章标签：计算机视觉人工智能深度学习

于 2023-12-11 19:15:58 首次发布

本文链接：https://blog.csdn.net/qq_44681809/article/details/134925579

版权

论文笔记专栏收录该内容

356 篇文章

订阅专栏

Self-conditioned Image Generation via Generating Representations

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

这篇论文介绍了表示条件图像生成（Representation-Conditioned Image Generation，RCG），这是一个简单而有效的图像生成框架，它在无类别条件的图像生成领域树立了新的基准。RCG 不依赖于任何人类注释。相反，它依赖于一个自监督的表示分布，该分布通过预训练的编码器从图像分布映射而来。在生成过程中，RCG 使用表示扩散模型（representation diffusion model，RDM）在该表示分布中采样，并利用像素生成器来生成以采样表示为条件的图像像素。这种设计在生成过程中提供了实质性的引导，从而实现了高质量的图像生成。在 ImageNet 256×256 上进行测试，RCG 实现了 3.31 的 Frechet Inception Distance（FID）和 253.4 的 Inception Score（IS）。这些结果不仅在无类别条件的图像生成领域显著提升了最新技术水平，而且在有类别条件的图像生成领域也与当前领先的方法相媲美，弥合了这两个任务之间长期存在的性能差距。

1. 简介

最近在有条件图像生成方面的进展取得了令人印象深刻的成果，利用人类注释，如类别标签或文本描述，来引导生成过程[11, 12, 18, 22, 47, 52]。相比之下，历史上省略了这种条件元素的无条件图像生成一直是一项更具挑战性的任务，通常产生的结果不那么令人印象深刻[3, 18, 19, 39, 43]。

这种二分法类似于监督学习和无监督学习之间的差异。历史上，无监督学习在性能上落后于其监督对应物。随着自监督学习（SSL）的出现，它从数据本身生成监督信号，与监督学习相比取得了竞争性或更优越的结果[9, 13, 25–27]，这个差距已经缩小。

借鉴这个类比，我们将自条件图像生成问题视为图像生成领域中自监督学习的对应物。这种方法与传统的无条件图像生成不同，像素生成过程以从数据分布本身派生的表示分布为条件，如图 1c 所示。

自条件图像生成对几个方面都很重要。首先，依赖于表示的自条件是无条件图像生成的更直观方法，反映了艺术家在将抽象的想法转化为画布之前的概念化过程。其次，类似于自监督学习如何超越监督学习，利用大量无标签数据的自条件图像生成有潜力超越有条件图像生成的性能。第三，通过省略对人类注释的依赖，自条件生成为超越人类注释能力的领域中的生成应用铺平了道路，如分子设计或药物发现等领域。

自条件图像生成的核心在于准确建模和从图像表示分布中采样（图1b）。这样的图像表示还应保留足够的信息来引导像素生成过程。为了实现这一点，我们开发了一个表示扩散模型（Representation Diffusion Model，RDM）来生成低维自监督图像表示。该分布是使用自监督图像编码器从图像分布映射而来的（图1a）。我们的方法提供了两个显著的好处。首先，RDM 可以捕捉表示空间底层分布的多样性，使其能够生成多种表示以促进图像生成。其次，这个自监督表示空间既有结构又低维，这简化了直观的神经网络架构的表示生成任务。因此，与像素生成过程相比，生成表示的计算开销是最小的。

通过 RDM，我们提出了 “Representation-Conditioned Image Generation（RCG）”，这是一个简单而有效的用于自条件图像生成的框架。RCG 由三个组件组成：一个 SSL 图像编码器（Moco v3 [16]），将图像分布转化为紧凑的表示分布；一个用于建模和从这个分布中采样的 RDM；以及一个像素生成器，用于生成以表示为条件的图像像素。这种设计使得 RCG 能够与常见的图像生成模型的像素生成器无缝集成，大幅提高它们的无类别条件图像生成性能（图2）。

RCG 展示了卓越的图像生成能力。在 ImageNet 256×256 上评估，RCG 实现了3.56的 Frechet Inception Distance（FID）和186.9的 Inception Score（IS），明显优于所有先前的无类别条件生成方法（最接近的技术水平结果是7.04的 FID 和 123.5 的 Inception Score [39]）。这样的结果可以通过无分类器引导进一步提高至3.31的 FID 和 253.4 的 Inception Score。值得注意的是，我们的结果与现有的有类别条件生成基准相媲美，甚至超过。这些结果突显了自条件图像生成的巨大潜力，有可能预示着这个领域的新时代的来临。

2. 相关工作

自监督学习。在相当长的时间内，监督学习在各种计算机视觉任务中往往明显优于无监督学习[8, 28, 29, 64]。然而，自监督学习的出现显著缩小了这一性能差距。最初的自监督学习工作集中在创建前序（pretext）任务，并训练网络以预测相关的伪标签[23, 44, 46]。生成模型也展示了从图像中提取表示的能力[19, 49]。相关工作DiffAE [49] 通过语义编码器提取的表示调节其扩散模型。这样的语义编码器与扩散模型一起从零开始训练，使DiffAE能够学习有意义且可解码的图像表示，从而促进图像操作。

最近，对比学习[14, 15, 38, 45] 已经显示出是一种强大而系统的学习有效表示的方法，其结果几乎与监督学习相媲美。研究人员还发现，掩码图像建模（masked image modeling，MIM）在自监督学习中非常有效[4, 26, 35, 39, 48]。这些在自监督学习中的进展使我们开始探索自条件图像生成的概念。我们提出的框架，RCG，利用前沿的自监督学习方法将图像分布映射到紧凑的表示分布。

图像生成。近年来，在图像合成方面，深度生成模型取得了巨大的进展。一个主要的生成模型流派是基于生成对抗网络（GANs）[7, 24, 36, 62, 63]。另一个流派基于一个两阶段方案[11, 12, 37, 39, 51, 60, 61]：首先将图像标记化到潜在空间，然后在潜在空间中应用最大似然估计和采样。最近，扩散模型[18, 31, 50, 52, 56] 在图像合成方面也取得了优越的结果。相关工作DALLE 2 [50] 基于 CLIP 文本嵌入和图像标题生成了 CLIP 图像嵌入，并在生成的图像嵌入条件下生成图像，展示了在文本到图像生成中的卓越性能。

尽管它们表现出色，但有条件生成和无条件生成能力之间存在显著差距[3, 18, 19, 39, 43]。以往的努力是通过将图像分组到表示空间中的簇，并使用这些簇作为自我条件或自我引导的潜在类标签，来缩小这一差距[3, 34, 40]。然而，这隐含地假设数据集，本应是未标记的，实际上是一个分类数据集，并且最佳簇数接近于类别数。此外，这些方法无法生成多样化的表示 —— 它们无法在相同簇或相同底层类中生成不同的表示。

其他两个相关的工作是 RCDM [5] 和 IC-GAN [10]，其中图像是基于从现有图像中提取的表示生成的。然而，这些方法依赖于真实图像在生成过程中提供表示，这在许多生成应用中是不切实际的要求。

RCG的条件方式与所有先前的工作都不同。与以前的自条件方法不同，它们产生了一组离散的预先计算的簇作为条件，RCG学习了一个表示扩散模型来建模表示空间的基础分布，并生成基于这个表示分布的图像。通过这种表示扩散模型，生成这个自监督学习（SSL）表示是通过一种简单而有效的方式实现的。据我们所知，这是第一次尝试生成低维的 SSL 表示并将其用作图像生成的条件。从这样的表示分布中建模和采样的能力使得像素生成过程能够在不需要人类注释的情况下受到对图像的全面理解的引导。因此，这比以前的方法在无条件图像生成方面表现显著更好。

3. 方法

RCG由三个关键组件组成：一个预训练的自监督图像编码器，一个表示生成器和一个像素生成器。下面详细说明了每个组件的设计：

图像编码器（Image Encoder）： RCG使用一个预训练的图像编码器将图像分布转换为表示分布。这个分布具有两个关键特性：对表示扩散模型建模的简单性，以及在高级语义内容方面对像素生成进行引导的丰富性。我们使用经过自监督对比学习方法（Moco v3 [16]）预训练的图像编码器，该方法通过正则化表示在一个超球面上，同时在ImageNet上实现了最先进的表示学习性能。我们提取投影头之后的表示（256维），并对每个表示进行其自身均值和标准差的归一化。

表示生成器（Representation Generator）： RCG使用一个简单而有效的表示扩散模型（representation diffusion model，RDM）从表示空间中采样。RDM使用具有多个残差块的全连接网络作为其主干，如图 4 所示。每个块由输入层、时间步嵌入投影层和输出层组成，其中每个层由一个LayerNorm [1]、一个SiLU [21]和一个线性层组成。这样的体系结构由两个参数控制：残差块的数量 𝑁 和隐藏维度 𝐶。

RDM遵循去噪扩散隐式模型（DDIM）[55]进行训练和推断。如图3a所示，在训练过程中，图像表示 𝑧_0 被与标准高斯噪声变量 𝜖 混合

然后，RDM主干被训练为将 𝑧_𝑡 去噪回到 𝑧_0。在推断过程中，RDM根据DDIM采样过程[55]从高斯噪声中生成表示。由于RDM在高度压缩的表示上操作，因此对于训练和生成都带来了较小的计算开销（表7）。

像素生成器。RCG中的像素生成器根据图像表示生成图像像素。在概念上，这样的像素生成器可以是任何现代条件图像生成模型，通过用其原始条件（例如，类别标签或文本）替换为SSL表示。在图3b中，我们以MAGE [39]为例，这是一个并行解码生成模型。像素生成器被训练为从图像的掩蔽版本中重建原始图像，条件是相同图像的表示。在推断过程中，像素生成器根据表示生成器的表示，从完全掩蔽的图像中生成图像。

我们尝试了三个代表性的生成模型：ADM [18] 和 LDM [52]，它们都是基于扩散的框架，以及 MAGE [39]，一个并行解码框架。我们的实验证明，当以高级表示为条件时，所有三个生成模型都取得了更好的性能（图2和表6b）。

无分类器引导。RCG的一个优势是它能够无缝地为无条件生成任务提供无分类器引导。无分类器引导以增强生成模型性能而闻名，传统上在无条件生成框架中不适用[33, 39]。这是因为无分类器引导旨在通过无条件生成为有条件图像生成提供引导。尽管RCG也设计用于无条件生成任务，但其像素生成器是以自监督表示为条件的，因此可以无缝地集成无分类器引导，从而进一步提升其生成性能。

RCG遵循Muse [11]，以在其MAGE像素生成器中实现无分类器引导。在训练期间，MAGE像素生成器以10%的概率在无条件的情况下进行训练。在每个推断步骤中，MAGE基于SSL表示为每个被掩蔽的标记预测一个以 𝜏 为尺度的条件 logit 𝑙𝑐 和一个无条件 logit 𝑙𝑢。最终的 logits 𝑙 𝑔 由 𝑙𝑐 通过引导尺度 𝜏 从 𝑙𝑢 处远离形成：𝑙𝑔 = 𝑙𝑐 + 𝜏(𝑙𝑐 − 𝑙𝑢)。然后，MAGE根据 𝑙𝑔 进行采样以填充剩余的掩蔽标记。RCG的无分类器引导的额外实现细节详见附录B。

4. 结果

4.1 设置

我们在ImageNet 256×256 [17]上评估了RCG，这是图像生成的常见基准数据集。我们生成了50,000张图像，并报告了Frechet Inception Distance（FID）[30]和Inception Score（IS）[53]作为标准指标，以衡量生成图像的保真度和多样性。FID是根据ImageNet验证集来测量的。在训练RCG的像素生成器时，图像被调整大小，使较小的一侧的长度为256，然后随机翻转和裁剪为256×256。输入到SSL编码器的图像进一步被调整大小为224×224，以与其位置嵌入大小兼容。对于我们的主要结果，RCG-L使用经过Moco v3 [16]预训练的Vision Transformer（ViT-L）[20]作为图像编码器，具有12个块和1536个隐藏维度的网络作为RDM的主干，以及MAGE-L [39]作为图像生成器。RDM使用恒定的学习率进行了200轮训练，而MAGE-L则使用余弦学习率调度进行了800轮训练。附录B提供了更多的实现细节和超参数。

4.2 无类别生成

在表1中，我们将RCG与ImageNet 256×256上最先进的生成模型进行了比较。由于传统的无类别生成不支持分类器或无分类器引导[18, 33]，表1中的所有结果均未使用此类引导。

如图5和表1所示，RCG能够生成保真度和多样性兼具的图像，达到了3.56的FID和186.9的Inception Score，明显优于先前最先进的无类别图像生成方法。而且，这样的结果还优于先前最先进的有类别生成方法（由CDM [32]实现的4.88 FID），弥合了有类别和无类别生成之间的历史差距。我们在附录A中进一步展示，我们的表示扩散模型可以轻松地促进有类别的表示生成，从而使RCG能够熟练执行有类别的图像生成。这个结果展示了RCG的有效性，并进一步突显了自监督条件图像生成的巨大潜力。

4.3 无分类器引导

传统的无类别图像生成框架在没有类别标签的情况下无法使用分类器引导[18]。此外，它们也不兼容无分类器引导，因为引导本身来自无条件生成。RCG的一个显著优势在于其能够将无分类器引导整合到其像素生成器中。如表2所示，通过无分类器引导，RCG的性能明显提高，达到了与利用引导的主流有类别图像生成方法相媲美的水平。我们还在表3中对我们的无分类器引导尺度 𝜏 进行了剔除。𝜏 = 1 既能提高FID和IS，而较大的 𝜏 保持提高Inception Score。

4.4 消融

这部分提供了RCG三个核心组件的全面消融研究。我们的默认设置使用Moco v3 ViT-B作为预训练图像编码器，一个包含12个块、1536隐藏维度的RDM作为主干，在100个epochs内进行训练，以及一个在200个epochs内进行训练的MAGE-B像素生成器。默认设置在表4到表6中都用灰色标出。除非另有说明，每个组件的个别消融过程中，所有其他属性和模块都设置为默认设置。

预训练编码器。我们在表4中探讨了不同的预训练图像编码器设置。表4a比较了通过各种SSL方法（Moco v3、DINO和iBOT）训练的图像编码器，突显了它们相对于无条件基线的实质性改进。此外，以DeiT [59]在监督方式下训练的编码器也展现出令人印象深刻的性能（5.51 FID和211.7 IS），表明RCG对监督和自监督预训练方法都具有适应性。

表4b评估了预训练编码器的模型大小对生成性能的影响。更大的模型始终提高线性探测准确性，尽管较小的ViT-S模型（22M参数）仍然取得了不错的结果（5.77 FID和120.8 IS）。

我们进一步分析了图像表示维度的影响，使用了Moco v3 ViT-B模型，这些模型使用了不同于其投影头的输出维度。表4c显示，过低或过高的维度都不理想-过低的维度会丢失关键的图像信息，而过高的维度会给表示生成器带来挑战。

表示生成器。表5消融了表示扩散模型（RDM）。RDM的架构包括全连接块，网络的深度和宽度由块数和隐藏维度决定。表 5a 和表 5b 分别消融了这些参数，表明在 12 个块和 1536 隐藏维度的情况下有一个最佳平衡。此外，表 5c 和表 5d 表明，RDM 的性能在大约 200 个训练 epochs 和 250 个扩散步骤后趋于饱和。尽管只产生了较小的计算成本，但 RDM 在生成 SSL 表示方面表现出色，如表 6a 所示。

像素生成器。表6消融了RCG的像素生成器。表6a对无条件类、有条件类和自条件MAGE-B进行了实验，评估在生成过程中不同的条件。在没有任何条件的情况下，训练了200个epochs的无条件类MAGE-B只产生了14.23 FID和57.7 IS。另一方面，当在生成的表示上进行条件设定时，MAGE-B实现了5.07 FID和142.5 IS，显著超过了无条件类基线，并在FID上进一步超越了有条件类基线。这表明表示可以提供比类标签更多的指导。它也非常接近“上限”，即在像素生成过程中由ImageNet真实图像的oracle表示进行条件设定，展示了RDM在生成真实SSL表示方面的有效性。

以前的自条件图像生成研究主要集中在将图像分类到表示空间中的簇中，使用这些簇作为伪类条件 [3, 34, 40]。我们还在RCG中评估了基于聚类的这种条件设定，利用Moco v3 ViT-B表示空间内的𝑘均值形成1000个簇。这种条件实现了6.60 FID和121.9 IS，略低于对生成的表示进行条件设定所取得的结果。这是因为这种离散簇内包含的信息有限，不足以为像素生成提供详细的指导。还需要注意的是，这种聚类方法依赖于关于总类数的先验知识，这是通常在一般无标签数据集中不可用的信息。

在概念上，RCG的像素生成器可以与各种生成模型集成。我们通过测试ADM、LDM和MAGE作为像素生成器来验证这一点。如表6b所示，对表示进行条件设定显著改善了三个生成器的无条件类生成性能。此外，表6c表明，延长训练epochs进一步改善了性能，与现有研究 [18, 39, 52] 一致。这些结果表明，RCG是一个通用的自条件图像生成框架，在与不同现代生成模型结合时，能够无缝改善无条件类生成性能。

4.5 计算代价

在表 7 中，我们详细评估了 RCG 的计算成本，包括参数数量、训练成本和生成吞吐量。训练成本是使用64个V100 GPU的集群进行测量的。生成吞吐量是在单个V100 GPU上测量的。由于LDM和ADM测量它们的生成吞吐量时使用的是单个NVIDIA A100 [52]，我们通过假设A100相对于V100有 ×2.2 的加速来将其转换为V100的吞吐量 [54]。

RCG-L使用预训练的Moco v3 ViT-L编码器，一个包含12个块和1536隐藏维度的RDM，以及一个MAGE-L像素生成器。训练阶段包括RDM进行200个epochs，MAGE-L进行800个epochs。在生成过程中，RDM经历250个扩散步骤，而MAGE-L执行20个并行解码步骤。我们还报告了RCG-B的计算成本和FID，其训练成本较低，参数数量较少（Moco v3 ViT-B作为图像编码器，MAGE-B作为像素生成器）。鉴于Moco v3 ViT编码器是预训练的并且在生成过程中不需要，它的参数和训练成本被排除在外。正如表中所示，与像素生成器相比，RDM模块仅增加了较小的成本。这表明RCG与现代生成模型兼容，突显了它在提高生成性能方面具有最小计算负担的能力。

4.6 量化结果

表示重构。图6说明了RCG生成能够在语义上与给定表示对齐的图像的能力。我们使用来自ImageNet 256×256的示例提取SSL表示。对于每个表示，我们通过在生成过程中改变随机种子来生成各种图像。由RCG生成的图像，尽管在具体细节上有所不同，但始终捕捉到原始图像的语义本质。这一结果突显了RCG能够利用图像表示中的语义信息来引导生成过程，而不损害无条件图像生成中重要的多样性。

表示插值。利用RCG对表示的依赖性，我们可以通过线性插值它们各自的表示，在两个图像之间进行语义过渡。图7展示了在ImageNet图像对之间进行这种插值的例子。插值的图像在不同的插值速率下仍然保持逼真，它们的语义内容平滑地过渡从一个图像到另一个图像。这表明RCG的表示空间既平滑又语义丰富。这也展示了RCG在低维表示空间内操纵图像语义的潜力，为控制图像生成提供了新的可能性。

5. 讨论

计算机视觉已经进入了一个新时代，在这个时代，从大量无标签数据集中学习变得越来越普遍。尽管有这一趋势，图像生成模型的训练仍然主要依赖于带标签的数据集，这可能归因于有条件和无条件图像生成之间的巨大性能差距。我们的论文通过探索自条件图像生成来解决这个问题，我们将其提出为有条件和无条件图像生成之间的纽带。我们证明了通过在SSL表示的条件下生成图像，并利用表示扩散模型来对这个表示空间进行建模和采样，可以有效地弥合长期存在的性能差距。我们相信这种方法有潜力将图像生成从人类注释的限制中解放出来，使其能够充分利用大量的无标签数据，甚至泛化到人类注释能力范围之外的领域。

S. 总结

S.1 主要贡献

本文提出表示条件图像生成（Representation-Conditioned Image Generation，RCG），它不依赖于任何人类注释，而是依赖于一个自监督的表示分布，该分布通过预训练的编码器从图像分布映射而来。在生成过程中，RCG 使用表示扩散模型（representation diffusion model，RDM）在该表示分布中采样，并利用像素生成器来生成以采样表示为条件的图像像素。

S.2 方法

RCG由三个关键组件组成：一个预训练的自监督图像编码器，一个表示生成器和一个像素生成器。

图像编码器（Image Encoder）： RCG使用一个预训练的图像编码器将图像分布转换为表示分布。
表示生成器（Representation Generator）： RCG使用一个简单而有效的表示扩散模型（representation diffusion model，RDM）从表示空间中采样。架构如图 3 所示
像素生成器：像素生成器被训练为从图像的掩蔽版本中重建原始图像，条件是相同图像的表示。在推断过程中，像素生成器根据来自表示生成器的表示，从完全掩蔽的图像中生成图像。架构如图 3 所示。