DALL-E: Zero-Shot Text-to-Image Generation

本文探讨了Zero-Shot Text-to-Image Generation的研究,该技术通过训练一个离散变分自编码器(dVAE)压缩图片,并使用自回归Transformer建模文本和图像的联合分布。尽管源码公开,但关键组件如textencoder缺失,论文质量欠佳。该方法旨在实现基于文本描述的图像生成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Zero-Shot Text-to-Image Generation 论文阅读笔记

摘要:
基于零样本(zero-shot)生成。使用两亿个文本-图像对训练。
公开源码(https://github.com/openai/DALL-E)不是很完善,缺了比如text encoder等关键部分。
这论文写得emmm不堪入目。

效果:
在这里插入图片描述

方法

训练阶段分两部分:

  1. 阶段一,压缩图片。训练一个discrete variational autoencoder (dVAE),即离散的变分自编码器来压缩256x256大小的RGB图片到32x32的image tokens,每个token有8192个可能值。(?)
  2. 将256个用BPE编码的text tokens和image tokens 连接在一起,然后训练一个自回归的transformer来建模text和image共同的分布。

整体思路是这样,细节看不太懂,之后再说。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值