Muse: 谷歌基于Transformer的文生图模型

Muse

Summary

题目: Muse: Text-To-Image Generation via Masked Generative Transformers
机构:谷歌
论文: https://arxiv.org/pdf/2301.00704.pdf
代码:未开源代码 https://muse-model.github.io
任务: 文生图
特点: transformer结构,高效解码
方法: VQ-GAN生成离散编码,离散编码基于文本 + masking做掩码建模,利用并行解码做decode,得到效果与效率都很好的文生图模型
前置相关工作:Imagen, VQ-GAN,MaskGit

Abstract

提出了Muse这样一种文生图的transformer结果,取得了SOTA的效果,但是相较于diffusion model和自回归模型效率更高,Muse利用离散token空间的掩码建模来进行训练,在给定文本特征(从预训练好的LLM提取)的条件下,Muse被训练用来预测随机掩码的图像token。相较于像素空间的扩散模型,比如Imagen / DALL-2,Muse就显得更加高效了,因为使用的是离散的token以及需要更少的采样步数,相较于自回归模型,比如Parti,Muse也是更加高效的&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猴猴猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值