DALL-E

本文介绍了一种基于自回归transformer的文本到图像生成方法,通过两个阶段的训练,实现了高质量的图像生成。这种方法在未经标记的大规模数据集上训练,能够进行零样本泛化,并在MS-COCO数据集上展示出色效果。
摘要由CSDN通过智能技术生成

CogView整体的算法框架与DALL-E相比更为简洁,文本部分的token转换已经十分成熟,下文不再做进一步介绍;图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图像生成类任务时,模型会通过计算一个Caption Score对生成图像进行排序,从而选择与文本最为匹配的图像作为结果。

摘要:

按照传统,文本到图像的生成一直专注于寻找更好的建模假设,以便能够在固定数据集上进行训练。这些假设可能涉及到复杂的架构、辅助损失或边信息(side information),比如训练过程中提供的物体部分标签或分割掩码。

我们基于transformer 描述了用于此任务的一种简单方法,该transformer 能够将文本和图像token自动回归建模为单个数据流。有了足够的数据和规模后,在零样本情况下进行评估时,我们的方法就可以与先前的特定领域建模(DSM)一争高下。。

1

引言

从文本到图像的现代机器学习合成方法始于Mansimov等人在2015年的研究工作,他们将Gregor 等人提出的用于生成图像标题的生成模型 DRAW 进行扩展,进一步生成新颖的视觉场景。2016年,Reed 等人证明,使用生成对抗网络(而不是使用递归可变自动编码器)可以提高图像逼真度。在同年的另一篇工作中,Reed 等人又证明,该系统不仅可以生成具有可识别属性的对象,还可以零样本泛化至留出(held-out)类别。

在接下来的几年里,研究人员又提出多种方法,推动了文本到图像生成领域的进展。比如,通过修改多尺度生成器来改进生成模型的架构;整合注意力和辅助损失;利用文本以外的其他条件信息资源。Reed等人[40]将文本嵌入作为额外的输入输入给生成器和判别器。StackGAN[51]将生成过程分解为一个草图精简过程。AttnGAN[48]使用对单词的关注来关注对应的子区域。ObjectGAN[27]按照文本→盒子→布局→图像的过程生成图像。DM-GAN[52]和DF-GAN[43]引入了新的架构,例如dianmic memory或deep fusionblock,以实现更

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值