#今日论文推荐# 字节跳动文本生成图像AI「CLIP-GEN」，无需标记的数据集就可生成可靠图像

从文字中合成图像是近年来具有挑战性的课题之一。早期的研究工作，一般都是基于卷积生成器，通过对给定的文本进行直接的图像生成，并在处理有限的领域内，得到很有希望的结果。但是，如果将这种方法推广到一般领域，那么在质量和图像测试匹配方面，表现就很糟糕。最近，Transformer 在文本 - 图像生成中取代了卷积，诸如 OpenAI 的 DALL-E 等研究工作实现了重大改进，这主要是由于引入了 VQ-GAN 的离散表示和增加了模型大小。但是，有一个很大的局限性，那就是它们要训练的图像数量，大概有几十亿个高质量配对的文本 - 图像数据。
为了解决这个问题，（同样是由 OpenAI）提出了一种基于对比语言 - 图像与训练（Contrastive Language-Image Pre-training，CLIP），它是一种能够预测文本提示和图像间关联的跨模态语言视觉。在此基础上，不同的方法都尝试通过优化与训练 CLIP 模型的文本 - 图像匹配得分，来根据文本查询搜索图像空间。但是，目前的研究成果都是低质量的，或者是局限在特定领域内。
出于这一原因，字节跳动研究小组提出了 CLIP-GEN，它是一种基于 VQ-GAN 的自监督方案，用于一般文本 - 图像的生成，其语言 - 图像先验因素从预训练 CLIP 模型中提取。
CLIP 和 VQ-GaN 背景 CLIP 是一种训练过的模型，将语言 - 图像对映射到一个联合嵌入空间。换句话说，给定一个文本提示和一个图像，CLIP 就会返回这两个实体之间的相关性。CLIP 的强大之处在于，它的知识可以扩展到它所训练的数据之外；因此，它是一个零样本预测器。
CLIP 在 4 亿个文本 - 图像对上按照这个方案进行训练：图像通过一个编码器，返回第一个嵌入，而文本信息通过另一个编码器，产生第二个嵌入。InfoNCE 损失函数是在不同的嵌入上计算的，以确保语义相关的数据在共同的嵌入空间中彼此接近。
VQ-GAN 使图像能够被离散的标记所描述。更具体地说，在第一阶段，一个解码器、一个编码器和一个判别器被训练来学习一个编码本（用于将编码器产生的潜伏向量转换为量化向量）。在第二阶段，训练一个 Transformer 来预测量化向量中的下一个标记，以便在推理过程中能够生成图像。
CLIP-GEN 架构

上图为对我们方法的概述。(a) 描述了我们的方法如何通过嵌入空间和标记空间将一个句子映射到相应的图像。(b) 显示了我们的训练和测试管道。在训练过程中，预先训练好的 CLIP 模型将图像嵌入到一个跨模式的嵌入中，预先训练好的图像标记器将图像编码成离散的图像标记。自回归变换器学习预测与跨模态嵌入有关的图像标记。在推理过程中，CLIP 模型可以把一幅图像或一句话作为输入，然后 Transformer 可以预测与输入语义相关的连贯的图像标记。

一般来说，CLIP-GEN 首先使用预训练 CLIP 模型（在这项研究中，使用了 CLIP 的 ViT-B/32 变体）提取图像的跨模态嵌入。同时，图像也被转换为 VQ-GAN 编码库空间中的离散标记序列。最后，一个基于 CLIP 嵌入来预测图像标记的自回归 Transformer 被训练。
在推理过程中，一个提示文本被赋予 CLIP（有可能使用文本作为输入，因为文本和图像在 CLIP 中共享相同的隐空间），所产生的嵌入被传递给 Transformer，它能够产生一致的图像标记。然后，生成的图像标记可以用 VQ-GAN 解码器重构成图像。这整个过程在上图中得到恢复。
更确切地说，训练阶段被分为两个阶段。在第一阶段（下图（a）），VQ-GAN 以自监督的方式对图像数据集进行训练。在这种情况下，损失函数是一个重建损失（控制真实图像和生成的图像之间的相似性）和典型的对抗性损失的组合。
在第二阶段（下图（b）），使用了两个损失的总和：第一个是为了最大化图像量化标记和 CLIP 嵌入之间的可能性，而第二个是输入图像的 CLIP 嵌入和生成图像的 CLIP 嵌入之间的重建损失。

论文题目：CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
详细解读：https://www.aminer.cn/research_report/630629df7cb68b460f0af3f5https://www.aminer.cn/research_report/630629df7cb68b460f0af3f5
AMiner链接：https://www.aminer.cn/?f=cs