（2022|CVPR，无语言模型，StyleGAN2，CLIP，图文特征对齐）LAFITE：迈向文本到图像生成的无语言训练

在训练文本到图像生成模型中的一个主要挑战是需要大量高质量的图像-文本对。虽然图像样本通常容易获取，但相关的文本描述通常需要仔细的人工标注，这特别费时费力。在本文中，我们提出了首个在没有文本数据的情况下训练文本到图像生成模型的方法。我们的方法利用了强大的预训练 CLIP 模型的多模态语义空间，通过从图像特征生成文本特征来无缝地减轻文本条件的需求。我们进行了大量实验来说明所提出的方法的有效性。我们在标准文本到图像生成任务中获得了最先进的结果。更重要的是，我们的无语言模型在大多数现有模型中表现出色，这些模型是通过完整的图像-文本对进行训练的。此外，我们的方法可以用于微调预训练模型，从而节省了在训练文本到图像生成模型中的训练时间和成本。我们的预训练模型在 MS-COCO 数据集上实现了有竞争力的零样本文本到图像生成结果，但相对于最近提出的大型 DALL-E 模型，模型大小和训练数据大小仅约为 1%。

1. 简介

从任意文本描述中自动合成逼真图像是人工智能领域的核心愿景之一。大多数现有工作通过使用大量高质量的图像-文本对来实现这一目标，然而，这通常需要大量精确的人工标注和筛选工作。例如，MS-COCO，是文本到图像生成任务中最常用的数据集之一，需要超过 70,000 个工时来收集和注释图像描述。即使对于像 Google Conceptual Captions 这样筛选较少的数据集，其中也包括了来自约 10 亿英语网页的 50 亿张图片中筛选出的 330 万个图像-文本对。在实际应用中，对于自定义领域，由于人工标注和筛选的高成本，收集如此庞大数量的图像-文本对用于模型训练是不可行的。这一挑战使得零样本文本到图像生成任务变得尤为重要，因为这些任务不使用特定领域的图像-文本对来训练模型，而是要求模型在给定领域生成图像。

最近，已经有一些尝试来解决零样本文本到图像生成问题，通过在规模庞大的图像-文本对上进行巨型生成模型的预训练，如 DALL-E [38] 和 CogView [7]。这两个模型都是自回归 Transformer 模型，专为零样本文本到图像生成而构建，它们可以生成与任意文本描述相对应的图像，而无需在特定领域的数据集上进行训练。然而，为了确保良好的性能，这些模型需要大规模的数据集、巨大的模型规模和大规模的模型训练。具体而言，DALL-E 包含超过 120 亿个参数，训练数据集包括 2.5亿个图像-文本对；CogView 是一个包含 40 亿个参数的模型，训练数据集包括 3000 万个图像-文本对。因此，训练这些模型需要数百块 GPU，这显著增加了碳足迹，并降低了研究的包容性，使更多的研究人员难以参与这一领域的研究。

因此，我们希望提供经济实惠的解决方案，以构建适用于有限图像-文本对数据的文本到图像生成模型，从而降低模型大小、数据收集和模型训练的要求。在数据收集方面，在理想情况下，无需文本可能是最简单和最经济的需求，只需提供图像数据。这非常重要，因为相较于构建高质量的图像-文本对，仅收集图像数据要容易得多，尤其是考虑到在线上可获得丰富的领域特定图像数据集。

为此，我们提出了 LAFITE（LAnguage-Free traIning for Text-to-image gEneration），这是一种基于预训练 CLIP 模型 [37] 的生成对抗方法，旨在显著降低成本障碍，构建高效的文本到图像生成模型。具体来说，(1) 我们利用 CLIP 在联合语义空间中的图像-文本特征对齐属性，构建伪图像-文本特征对；(2) 我们提出了一种文本到图像生成对抗网络（Generative Adversarial Network，GAN）模型 [11]，它可以有效地利用伪图像-文本特征对。我们的主要贡献可以总结如下：

我们提出了 LAFITE，这是一个多功能的系统，在各种文本到图像生成设置中都能有效工作，包括无语言、零样本和完全监督学习。
据我们所知，LAFITE 是第一个为文本到图像生成任务实现无语言训练的工作。我们提出了两种构建伪图像-文本特征对的新方案，并在新设置下进行了全面研究。通过在不同的训练方案下（从头开始训练和从预训练生成模型微调）在几个数据集上的定量结果验证了有效性。
在零样本文本到图像生成设置中，LAFITE 在 COCO 基准测试上胜过了先前的 DALL-E 和 CogView，而其可训练模型参数大小不到 1%（带有冻结的CLIP模型权重）。请参阅图 1 进行比较。
在标准的完全监督设置中，LAFITE 在很大程度上胜过了几种最先进的方法。令人惊讶的是，即使我们的无语言模型也表现出优于大多数使用完整图像-文本对进行训练的现有模型的性能。

2. 相关工作

文本到图像生成。现有的文本到图像生成模型可以分为两类：完全监督的文本到图像生成 [53,56,59] 和零样本文本到图像生成 [7,38]。在完整的图像-文本对设置中，最先进的模型仍然由 GAN 的变体 [53,56,59] 主导。GAN [11] 在图像合成方面取得了许多进展 [18,20,23,28,32]。对于文本到图像合成，改进的模型性能通常受益于大型生成对抗性图像模型 [56] 和预训练文本编码器 [30]。最近，在DALL-E [38]和 CogView [7] 中已经取得了出色的零样本文本到图像生成性能。基本思想是使用 VQ-VAE [39,45] 将图像编码为离散的潜在标记，并预训练一个巨大规模的自回归 Transformer [46]，以基于配对的文本序列预测这些离散标记。我们的 LAFITE 是第一个在零样本生成方面取得最先进技术的生成对抗方法。

多模态特征学习。在在人工智能领域，学习视觉与语言的联合和对齐特征空间一直是一个长期存在的问题 [42,50]。受到 BERT 模型 [6] 的启发，一些方法尝试学习通用的多模态融合层，给定预提取的视觉区域特征和文本编码器 [21,24,26,31,43,57]。这些工作旨在学习用于下游任务的通用多模态表示，如视觉问答 [2,14]、图像标题 [1,27]、视觉常识推理 [55]。与前述的工作不同，另一系列工作侧重于从自然语言监督中学习视觉表示的方式，包括生成式 [5] 和判别式 [48,49,58] 方法。后者学习了一个对齐的视觉-语义空间。这个想法最近在 CLIP/ALIGN [16,37] 中得到了扩展，为构建通用的图像-文本表示空间铺平了道路。我们的 LAFITE 是在这个通用空间中构建的，并是第一个利用其多模态对齐属性进行无语言文本到图像生成的方法。

CLIP 对生成/操作的应用。多模态特征空间的想法也启发了一些最近的生成模型研究。所有这些工作都与我们的工作有关，因为它们都使用了预训练的 CLIP 模型和 StyleGAN2 工具。我们的 LAFITE 与它们不同，有两个方面的不同：(1) 动机和场景不同。现有的工作集中在潜在优化 [10]、图像操作 [35]、领域适应 [9]、图像分割 [33]。我们是最先研究在不需要配对的标题的情况下训练文本到图像生成模型的工作。(2) 技术不同。虽然所有这些工作都利用了图像-文本特征对齐的特性，但我们的 LAFITE 是唯一一个在联合多模态空间中生成伪特征对的工作，没有一个现有的工作考虑到这种可能性。

3. LAFITE：一种无语言范式

避免在构建图像-文本对训练数据中进行人工标注的一个自然想法是使用一个现成的图像标题模型，可以自动生成所收集的训练图像的标题。然而，这是一项特别具有挑战性的任务，因为缺乏一个能够（i）弥合文本和图像之间的模态差距以生成高质量标题；（ii）泛化到具有大领域差距的不同图像领域的通用标题模型。在本文中，我们采取解决一个更简单的问题：可以直接生成文本特征，而不是文本描述，以避免使用图像标题模型。

在整篇论文中，(x, t) 表示图像-文本对，x′ 是 t 的相应生成图像。G 和 D 分别表示生成器和判别器。我们使用 f_img 和 f_txt 来表示预训练的文本编码器和图像编码器，它们将文本描述和图像样本映射到一个共同的多模态特征空间。h = f_txt(t) 表示真实的文本特征，z ∼ N(0, I) 表示从标准高斯分布中采样的潜在噪声，作为生成器的一种输入。我们实现无语言训练的想法是通过利用预训练模型的图像-文本特征对齐来生成伪文本特征 h′，其目的是近似 h。然后，生成的特征被输入到文本到图像生成器，以合成相应的图像。不失一般性，我们在两种情境中将从输入数据到多模态特征空间的映射表示为转换器 T。如果只提供图像 x（即，无语言设置），我们考虑伪文本特征生成过程 T：x → h′；如果提供图像-文本对 (x, t)（即，标准的完全监督设置），我们编码真实文本，T：t → h。

3.1. 伪文本特征生成

为了实现这一目标，需要一个通用的多模态特征空间，其中配对的文本和图像特征能够很好地对齐。最近的视觉与语言模型，如 CLIP 和 ALIGN，通过使用对比学习在数百万或数千万的图像-文本对上进行预训练，实现了这一目标。它们通过最大化匹配的图像-文本特征之间的余弦相似度，同时最小化不匹配对的余弦相似度。这自然地为多模态特征提供了一个高维超球体（在我们的实现中，我们通过 L2 范数对使用 CLIP 提取的特征进行归一化），其中配对的图像-文本应该彼此接近，其特征向量之间的夹角很小。这启发我们探索在这个超球体上为给定图像 x 生成伪文本特征 h′ ∈ H(x) 的潜力：H(x) = {h′|Sim(h′, f_img(x)) ≥ c}，其中 Sim 表示余弦相似度，c > 0 是一个阈值。这一思想在图 2 中有所说明。基于分析，我们考虑了两种生成伪文本特征的方案。

固定的扰动。为了生成伪文本特征 h′，我们建议使用自适应高斯噪声扰动图像特征 f_img(x)：

其中 ϵ ∼ N(0, I) 表示高斯噪声，ξ > 0 是一个固定的超参数，表示扰动的程度，∥ · ∥_2 表示 L2 范数。所添加的高斯噪声是自适应的，因为它被归一化到一个超球体，然后按图像特征的范数进行重新缩放。我们可以证明，使用自适应噪声，我们的 LAFITE_G 可以以很高的概率生成 H(x)，这个概率取决于 ξ、c和d。正式的定理及其证明在附录中提供。

可训练的扰动。将 LAFITE_G 扩展为学习更适应性的噪声而不是使用普通的高斯噪声是很自然的。为此，我们建议训练一个推断模型，该模型以图像特征作为输入，输出所需噪声分布的均值和方差。具体来说，推断模型由两个神经网络 r1(·) 和 r2(·) 组成。使用重新参数化技巧 [22]，生成伪文本特征的过程如下：

其中 exp 表示逐元素指数运算，⊙ 表示逐元素乘法，ϵ ∼ N(0, I) 表示从标准高斯分布中采样的噪声。在实际操作中，我们分别使用 4 个全连接（FC）层构建 r1(·) 和 r2(·)，通过最大化生成文本特征和真实文本特征之间的余弦相似度 Sim(h′, h) 来以监督方式训练它们。

讨论。这两种方案各有利弊。可训练的扰动通常比固定扰动表现更好。然而，固定扰动更容易使用，无需在另外的带标注图像-文本对的数据集上训练推断模型。此外，可训练扰动的性能受到在训练推断模型和生成模型中使用的数据集之间差距的影响，这在我们的实验一节的消融研究中经验性地验证了。

3.2. 网络架构

我们建议将无条件的 StyleGAN2 适应为我们目标的条件生成模型。需要注意的是，尽管我们在无语言的设置中讨论我们的模型，但它可以通过使用 h（真实文本特征）而不是 h′（伪文本特征）来直接推广到标准的文本到图像生成。

生成器。最近的研究表明，StyleGAN2 的 StyleSpace 是一个具有很好解耦特性的中间特征空间，其各个维度高度独立。通过利用这一性质，我们提出了一种简单而有效的方法来实现条件生成：将新的条件信息直接注入 StyleSpace，如图 3 所示。具体来说，我们选择如下方式注入文本信息：

(1) 随机噪声向量 z ∈ Z 通过所谓的映射网络转换为一个中间潜在空间 W，该网络由一系列全连接（FC）层组成。W 空间被认为更好地反映了学习分布的解耦特性。每个 w ∈ W 进一步通过学习的仿射变换转换为逐通道无条件样式编码 s，对于生成器的每一层都使用不同的学习仿射变换。这些样式参数所构成的空间通常被称为 StyleSpace，或者 S。
(2) 对于来自 CLIP 的图像-文本联合语义空间的条件向量 h′，它通过每个生成器层的不同的学到的 2 层 FC 网络转换为条件编码 c。
(3) 在生成器的每一层，我们将其样式和条件编码连接在一起，以获取 [s, c]，然后将其进一步通过每个生成器层的不同的学习仿射变换转换为通道条件样式编码 u。我们将由这些样式参数构成的空间称为 Conditional StyleSpace，或者 U。

总之，生成器 G 合成一张假的图像如下：

鉴别器。在文本到图像的任务中，鉴别器确保生成的图像满足两个标准：对人类感知来说具有逼真度，并且与文本条件一致。为此，我们使用一个共享的鉴别器骨干对输入图像 x 进行编码，然后执行两个任务（每个任务都使用任务特定的全连接层），如图 4 所示。

(1) f_d(x) 将 x 投影到一个标量，指示输入图像 x 的真假水平。这是所有 GAN 模型共享的一个常见任务；
(2) f_s(x) 将 x 嵌入到一个语义空间中，这个语义空间被期望与 CLIP 的语义空间相似。我们计算内积 〈h′, f_s(x)〉，以指示输入图像 x 与伪文本特征在语义上的对齐/条件化程度。

总之，鉴别器的输出定义如下：

直观地说，D(x, h′) 对于图像 x 产生高值，当它是真实的（具有较大的 f_d(x) 值）且 h′ 与 f_s(x) 之间的语义相似性很高时。类似的思想已经在一些研究中得到了利用。与这些方法不同的是，我们的模型可以利用预训练的多模态特征空间，从而减轻了鉴别器在学习语义上有意义的特征方面的困难。

3.3. 训练目标

对于一个包含 n 张图像

的小批量，h′_i 是第 i 张图像对应的生成的伪文本特征。我们的模型采用对抗训练的方式进行训练，并使用额外的对比损失来确保 GAN 特征空间与预训练的 CLIP 特征空间对齐。第一个是标准的条件 GAN 损失。生成器和鉴别器的损失如下定义，使用来自公式 (4) 的对数：

这里的 σ(·) 表示 Sigmoid 函数。

为了强化鉴别器提取的特征 f_s(x) 在预训练的 CLIP 特征空间中的语义对齐，我们考虑了如下的鉴别器的对比正则化器：

这里的 Sim 表示余弦相似度，τ 是一个非负的超参数。直观地说，L_ConD 强制鉴别器输出的图像特征 f_s(x_i) 与相应的文本特征 h′_i 相似。

我们进一步利用预训练的 CLIP 模型来提高生成的图像 x′_i 与其条件化的伪文本特征 h′_i 的语义对应性。我们为生成器定义了以下对比损失，其超参数 τ 与（6）相同：

通过上述对比正则化项，生成器和鉴别器的最终训练损失被定义如下：

在无语言设置中，τ = 0.5，λ = γ = 10，而在完全监督设置中，τ = 0.5，λ = 10，γ = 5。

3.4. 训练细节

我们总结了 LAFITE 的无语言训练流程，如算法 1 所示。对于具有完整图像-文本对的设置，可以将伪文本特征生成步骤替换为真实的文本特征 h = f_txt(t)。

预训练。为了展示我们模型的零样本迁移任务能力，我们还考虑了一个变种，该变种在 Google Conceptual Captions 3M (CC3M) 数据集上进行了预训练，该数据集包含了 330 万个图像-文本对 [41]。对于具有可训练扰动的伪文本特征生成，我们还在 CC3M上训练了其推断模型。在预训练和下游数据集之间没有图像重叠，这确保了在与其他方法进行迁移学习比较时的公平性。对于面部领域，我们在 FFHQ 数据集上进行了预训练，该数据集包含了 7 万张图像 [19]。这些预训练模型可以在不同数据集上使用无语言设置进行微调，这将在下一节讨论。

数据增强。在实践中，我们还考虑图像数据增强，以改进提取的图像特征 f_img(x) 在等式 (1) 中的表现。我们选择使用随机裁剪，避免使用像颜色转换这样的增强，因为它们可能导致 h′ 和 x 之间不匹配。具体细节见附录。

4. 实验

由于提出的 LAFITE 是一个多功能的系统，我们在不同的设置下进行了实验，包括提出的无语言设置，以及零迁移和完全监督的文本到图像生成设置。由于在第 3.1 节中描述的生成伪文本特征的两种方案的差异，我们将我们的系统分为两个变种：使用固定扰动的 LAFITE_G 和使用可训练扰动的 LAFITE_NN。所有的实验都在 4 个 Nvidia Tesla V100 GPU 上进行，使用 Pytorch [34] 实现。我们的方法中使用了CLIP-ViT/B-32，除非另有说明。所有的代码和预训练模型将在接受后公开提供。

数据集。我们考虑了一系列文献中常用的数据集 [53, 54, 56, 59]，包括 MSCOCO [4]、CUB [47]、LN-COCO [36]、多模态 CelebA-HQ（MM CelebA-HQ）[52]。所有图像都被缩放到分辨率256 × 256。这些数据集的统计信息在附录中的表 7 中进行了总结。

评估指标。根据 [7, 38]，我们在MSCOCO数据集上报告了模糊的 Frechet Inception Distance（FID）[12] 和 Inception Score（IS）[40]，这些指标是使用来自验证集的随机抽样的文本生成的30,000 张图像计算得出的。

4.1. 无语言文本到图像生成

首先，我们研究了 LAFITE 在提出的无语言设置下的性能，即在给定领域中只提供图像，训练期间没有可用的配对标题。

基于标题的基线：作为一个基线，我们使用了 SoTA 图像标题模型 VinVL [57] 来为图像生成一些相关的标题。需要注意的是，MS-COCO 图像文本对被用来训练作者提供的 VinVL 图像标题模型，因此由于这些信息泄漏，MS-COCO 比较在基线方面有一定的不公平偏见。我们将这个基线方法与使用相同的网络架构和超参数设置进行公平比较的我们的L AFITE 进行对比。主要结果见表 1。我们的 LAFITE 的两个变种都明显优于基于标题的基线方法。简单的 LAFITEG 在这个数据集上表现最佳，表明了该方法的通用性。对于 LAFITE_NN，需要注意 CC3M 用于训练推断模型，因此在MS-COCO 数据集上测试 LAFITE_NN 时没有信息泄漏。我们在图 5 中提供了一些生成的示例，从中我们可以看到，尽管在训练期间没有使用文本数据，但我们的 LAFITE 实现了文本对齐的生成，验证了所提出方法的有效性。

此外，我们实际上可以根据图像进行生成：对于给定的图像，我们可以使用 LAFITE 生成一个以图像为条件的伪文本特征向量。将这个伪文本特征向量传递给生成器 G，将生成与给定图像相似的图像。因此，LAFITE 可以实现带有多模态条件的图像生成，即可以同时根据图像和文本进行条件生成。实现细节在附录中进行了讨论。我们在图 6 中提供了一些生成的示例，更多结果请参考附录。

4.2. 零样本文本到图像生成

零样本是一种设置，用于评估预训练的文本到图像生成模型，在这种设置下，不对下游数据进行训练。我们使用 MS-COCO 数据集来评估在 CC3M 上进行预训练的模型。主要结果如表 2 所示。与DALL-E [38] 和 CogView [7] 相比，LAFITE 在大多数情况下取得了更好的定量结果。我们还强调，我们的模型只有 7500 万可训练参数，而 DALLE 有超过 120 亿参数。可以说，相对于 DALL-E 中使用的预训练数据集，我们的预训练数据集 CC3M 要小得多，后者包含 2.5 亿的图像-文本对。

4.3. 标准文本到图像生成

现在，我们考虑标准的文本到图像生成任务，其中在训练期间提供了所有的真实图像-文本对。我们将 LAFITE 与一系列竞争性系统进行比较：AttnGAN [53]、Obj-GAN [25]、DM-GAN [59]、OP-GAN [13]、DF-GAN [44] 和 XMCGAN [56]。主要结果通过 FID 和 IS 在不同数据集上提供在表 3中。我们还按照以前的研究 [13, 56] 在MS-COCO上报告语义对象准确度（SOA）。竞争模型的结果直接引用了相应的论文。很明显，我们提出的模型始终优于所有其他方法，为标准文本到图像生成创造了新的 SoTA 结果。

4.4. 预训练模型的适应

无语言模型微调。与现有的工作相比，预训练的 LAFITE 模型的一个关键优势是它自然地实现了无语言模型微调。结果见表 4，其中研究了不同数据集上的 LAFITE_G 和 LAFITE_NN。我们看到，从预训练模型进行微调通常优于从头开始训练。我们还注意到，预训练 LAFITE 的性能在很大程度上取决于预训练和微调数据集之间的领域差距。例如，LAFITE_NN 有时会获得比 LAFITE_G 更差的结果，特别是当微调数据集与 CC3M 不相似时，即 CUB 和 MM CelebA-HQ。这表明用于生成文本特征的推断模型可能存在偏差，因为它可能过度拟合其训练数据集 CC3M。

预训练的 LAFITE 还是训练高效的。例如，在MS-COCO 数据集上使用 LAFITE 从头开始训练需要大约 4 天才能达到 FID 为 18，而微调只需要 3 小时。这在我们需要跨不同数据集使用多个文本到图像生成模型时尤为重要。

半监督微调。预训练 LAFITE 的适应是样本高效的。一个有趣的问题是，我们需要多少百分比的图像-文本对才能在 MS-COCO 数据集上超越以前的 SoTA XMC-GAN？为了回答这个问题，我们进行了一个实验，其中只有一部分图像与真实文本相关联。我们的模型首先在无语言设置下使用所有图像进行预训练，然后使用不同百分比的图像-文本对进行微调。主要结果总结在图 7 中。我们的方法在 IS 和 FID 上都超过 XMC-GAN，当使用不到总图像-文本对一半时。

4.5. 消融研究

训练目标的消融研究。我们首先研究了我们目标函数中每个组件的影响。标准生成器和鉴别器损失总是被采用，我们通过逐个排除 L_ConG 和 L_ConD 来进行消融实验。结果见表 5。对于 LAFITE 的两个变种，观察到模型性能可能显著下降。

预训练文本/图像编码器的消融。为了展示在我们的 LAFITE 中使用多模态特征对齐的预训练模型的重要性，我们比较了 CLIP 模型和其他单模态模型。我们采用流行的 RoBERTa [30] 作为基线文本编码器，它仅在大型文本语料库上进行了训练。需要注意的是，没有联合特征空间是无法进行无语言训练的。因此，这个实验是基于完全监督的文本到图像生成设置。为了公平比较，我们还报告了仅使用 CLIP 文本编码器的结果，同时丢弃图像编码器。在这种情况下，没有图像编码器，因此目标函数中的 L_ConG 项被移除。结果见表 6。如预期的那样，即使不使用 CLIP 的图像编码器，只使用 CLIP 文本编码器的模型仍然明显优于使用 RoBERTa 的模型。从结果可以得出以下结论：(1) CLIP的特征空间在文本到图像生成中具有语义含义，因此仅使用 CLIP 的文本编码器仍然比 RoBERTa 取得更好的结果；(2) 文本到图像生成的结果可以通过使用一个特征对齐的联合特征空间（CLIP 与其他模型相比）得到改进，并且可以通过更强大的联合空间进一步改进（CLIP-ViT/B-16 优于 CLIP-ViT/B-32，其中 ViT/B-16 和 ViT/B-32 是不同设计的视觉 transformers [8]）。

5. 结论

我们提出了 LAFITE，这是一种构建文本到图像生成系统的方法，无需在训练中使用特定领域的图像文本对。我们通过使用图像生成伪文本特征来实现这一目标。在各种文本到图像生成任务中， LAFITE 表现出色，包括无语言、零样本和完全监督的设置。特别是，在零样本设置中，LAFITE 相比最近的 DALL-E/CogView 等先进技术，只有 1% 的可训练参数数量，创造了新的 SoTA。LAFITE 在完全监督设置中也胜过以前的作品。我们相信无语言训练是实现文本到图像生成更广泛应用领域的有前途的方向，因为它显著降低了数据收集的负担。一个有趣的未来方向是探索野外图像合成，在这种情况下，提供了长尾和开放集条件用于生成。

S. 总结

S.1 主要贡献

本文提出了 LAFITE（LAnguage-Free traIning for Text-to-image gEneration），这是一种基于预训练 CLIP 模型的生成对抗方法，利用预训练 CLIP 模型的多模态语义空间对齐属性，通过从图像特征生成（伪）文本特征，从而无需用于获取图像-文本对的大量人工图像标题。

S.2 架构和方法

伪文本特征生成。有两种生成方式：

固定扰动：使用自适应高斯噪声扰动图像特征，来进行生成。
可训练扰动：不是使用普通的高斯噪声，而是训练一个推断模型，该模型以图像特征作为输入，输出所需噪声分布的均值和方差。
可训练的扰动通常比固定扰动表现更好。然而，固定扰动更容易使用，无需在另外的带标注图像-文本对的数据集上训练推断模型。而且训练推断模型和生成模型使用的数据集差距也会影响性能。

生成器。条件生成的流程图如图 3 所示。该架构以修改的 StyleGAN2 作为主干。

随机噪声向量 z 通过映射网络（由一系列全连接层组成）转换到中间潜在空间 W。每个 w 通过学习的仿射变换转换为逐通道无条件样式编码 s
来自 CLIP 的图像-文本联合语义空间的条件向量 h′，通过每个生成器层的不同的学到的 2 层 FC 网络转换为条件编码 c。
在生成器的每一层，将其样式和条件编码连接在一起获得 [s, c]，然后将其通过每个生成器层的不同的学习仿射变换转换为通道条件样式编码 u。基于 u 进行条件生成。

鉴别器。鉴别器架构如图 4(a) 所示。鉴别器的输出是判别图像真假的分数加上图像语义与生成的（伪）文本特征的对齐分数。

正则化项。