DALL-E

最新推荐文章于 2024-06-12 09:13:48 发布

m0_55217431

最新推荐文章于 2024-06-12 09:13:48 发布

阅读量1.1k

点赞数

分类专栏： VAE系列文章标签：神经网络

本文链接：https://blog.csdn.net/m0_55217431/article/details/120786407

版权

本文介绍了一种基于自回归transformer的文本到图像生成方法，通过两个阶段的训练，实现了高质量的图像生成。这种方法在未经标记的大规模数据集上训练，能够进行零样本泛化，并在MS-COCO数据集上展示出色效果。

摘要由CSDN通过智能技术生成

CogView整体的算法框架与DALL-E相比更为简洁，文本部分的token转换已经十分成熟，下文不再做进一步介绍；图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图像生成类任务时，模型会通过计算一个Caption Score对生成图像进行排序，从而选择与文本最为匹配的图像作为结果。

摘要：

按照传统，文本到图像的生成一直专注于寻找更好的建模假设，以便能够在固定数据集上进行训练。这些假设可能涉及到复杂的架构、辅助损失或边信息（side information），比如训练过程中提供的物体部分标签或分割掩码。

我们基于transformer 描述了用于此任务的一种简单方法，该transformer 能够将文本和图像token自动回归建模为单个数据流。有了足够的数据和规模后，在零样本情况下进行评估时，我们的方法就可以与先前的特定领域建模（DSM）一争高下。。

引言

从文本到图像的现代机器学习合成方法始于Mansimov等人在2015年的研究工作，他们将Gregor 等人提出的用于生成图像标题的生成模型 DRAW 进行扩展，进一步生成新颖的视觉场景。2016年，Reed 等人证明，使用生成对抗网络（而不是使用递归可变自动编码器）可以提高图像逼真度。在同年的另一篇工作中，Reed 等人又证明，该系统不仅可以生成具有可识别属性的对象，还可以零样本泛化至留出（held-out）类别。

在接下来的几年里，研究人员又提出多种方法，推动了文本到图像生成领域的进展。比如，通过修改多尺度生成器来改进生成模型的架构；整合注意力和辅助损失；利用文本以外的其他条件信息资源。Reed等人[40]将文本嵌入作为额外的输入输入给生成器和判别器。StackGAN[51]将生成过程分解为一个草图精简过程。AttnGAN[48]使用对单词的关注来关注对应的子区域。ObjectGAN[27]按照文本→盒子→布局→图像的过程生成图像。DM-GAN[52]和DF-GAN[43]引入了新的架构，例如dianmic memory或deep fusionblock，以实现更