Muse
Summary
题目: Muse: Text-To-Image Generation via Masked Generative Transformers
机构:谷歌
论文: https://arxiv.org/pdf/2301.00704.pdf
代码:未开源代码 https://muse-model.github.io
任务: 文生图
特点: transformer结构,高效解码
方法: VQ-GAN生成离散编码,离散编码基于文本 + masking做掩码建模,利用并行解码做decode,得到效果与效率都很好的文生图模型
前置相关工作:Imagen, VQ-GAN,MaskGit
Abstract
提出了Muse这样一种文生图的transformer结果,取得了SOTA的效果,但是相较于diffusion model和自回归模型效率更高,Muse利用离散token空间的掩码建模来进行训练,在给定文本特征(从预训练好的LLM提取)的条件下,Muse被训练用来预测随机掩码的图像token。相较于像素空间的扩散模型,比如Imagen / DALL-2,Muse就显得更加高效了,因为使用的是离散的token以及需要更少的采样步数,相较于自回归模型,比如Parti,Muse也是更加高效的&#