CogView阅读笔记【文生图模型】


1. 基本信息

  • 题目:CogView: Mastering Text-to-Image Generation via Transformers
  • 时间:2021.11
  • 发表:NIPS 2021
  • 机构:清华,达摩院,智源研究院
  • 作者:ming等
  • 链接直达:github/paper/project
  • 关键词:AIGC,text to image,VQVAE
  • 概括:使用VQVAE,得到image的tokens,以及SentencePiece得到的text的tokens,输入到Transformer中训练。
  • 摘要翻译:长期以来,一般领域的文本到图像生成一直是一个悬而未决的问题,这需要强大的生成模型和跨模态理解。我们提出了 CogView,一个具有 VQ-VAE 分词器的 40 亿参数 Transformer 来解决这个问题。我们还演示了各种下游任务的微调策略,例如风格学习、超分辨率、文本图像排名和时装设计,以及稳定预训练的方法,例如消除 NaN 损失。CogView 在模糊的 MS COCO 数据集上实现了最先进的 FID,优于以前基于 GAN 的模型和最近的类似工作 DALL-E。

2. 理解(个人初步理解,随时更改)

  1. 干了一件什么事:文生图模型。
  2. CogView的pipeline(如图):
    请添加图片描述

3. 精读(暂无)


参考文献

  1. https:/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值