CogView阅读笔记【文生图模型】

传说故事

已于 2024-02-04 17:53:22 修改

阅读量510

点赞数 7

分类专栏：论文阅读文章标签：笔记人工智能计算机视觉深度学习 AIGC

于 2024-01-25 11:42:24 首次发布

本文链接：https://blog.csdn.net/qq_43854103/article/details/135617963

版权

8 篇文章 0 订阅

订阅专栏

1. 基本信息

题目：CogView: Mastering Text-to-Image Generation via Transformers
时间：2021.11
发表：NIPS 2021
机构：清华，达摩院，智源研究院
作者：ming等
链接直达：github/paper/project
关键词：AIGC，text to image，VQVAE
概括：使用VQVAE，得到image的tokens，以及SentencePiece得到的text的tokens，输入到Transformer中训练。
摘要翻译：长期以来，一般领域的文本到图像生成一直是一个悬而未决的问题，这需要强大的生成模型和跨模态理解。我们提出了 CogView，一个具有 VQ-VAE 分词器的 40 亿参数 Transformer 来解决这个问题。我们还演示了各种下游任务的微调策略，例如风格学习、超分辨率、文本图像排名和时装设计，以及稳定预训练的方法，例如消除 NaN 损失。CogView 在模糊的 MS COCO 数据集上实现了最先进的 FID，优于以前基于 GAN 的模型和最近的类似工作 DALL-E。