1. 基本信息
- 题目:CogView: Mastering Text-to-Image Generation via Transformers
- 时间:2021.11
- 发表:NIPS 2021
- 机构:清华,达摩院,智源研究院
- 作者:ming等
- 链接直达:github/paper/project
- 关键词:AIGC,text to image,VQVAE
- 概括:使用VQVAE,得到image的tokens,以及SentencePiece得到的text的tokens,输入到Transformer中训练。
- 摘要翻译:长期以来,一般领域的文本到图像生成一直是一个悬而未决的问题,这需要强大的生成模型和跨模态理解。我们提出了 CogView,一个具有 VQ-VAE 分词器的 40 亿参数 Transformer 来解决这个问题。我们还演示了各种下游任务的微调策略,例如风格学习、超分辨率、文本图像排名和时装设计,以及稳定预训练的方法,例如消除 NaN 损失。CogView 在模糊的 MS COCO 数据集上实现了最先进的 FID,优于以前基于 GAN 的模型和最近的类似工作 DALL-E。
2. 理解(个人初步理解,随时更改)
- 干了一件什么事:文生图模型。
- CogView的pipeline(如图):
3. 精读(暂无)
参考文献
- https:/