Muse: 谷歌基于Transformer的文生图模型

猴猴猪猪

已于 2023-09-23 00:54:03 修改

阅读量461

点赞数

分类专栏： AIGC 文章标签：人工智能 AIGC 计算机视觉论文阅读

于 2023-09-04 20:59:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pku_langzi/article/details/132677252

版权

AIGC 专栏收录该内容

9 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Overview

Muse

Muse

Summary

题目: Muse: Text-To-Image Generation via Masked Generative Transformers
机构：谷歌
论文: https://arxiv.org/pdf/2301.00704.pdf
代码：未开源代码 https://muse-model.github.io
任务: 文生图
特点: transformer结构，高效解码
方法: VQ-GAN生成离散编码，离散编码基于文本 + masking做掩码建模，利用并行解码做decode，得到效果与效率都很好的文生图模型
前置相关工作：Imagen, VQ-GAN，MaskGit

Abstract

提出了Muse这样一种文生图的transformer结果，取得了SOTA的效果，但是相较于diffusion model和自回归模型效率更高，Muse利用离散token空间的掩码建模来进行训练，在给定文本特征（从预训练好的LLM提取）的条件下，Muse被训练用来预测随机掩码的图像token。相较于像素空间的扩散模型，比如Imagen / DALL-2，Muse就显得更加高效了，因为使用的是离散的token以及需要更少的采样步数，相较于自回归模型，比如Parti，Muse也是更加高效的&#

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Muse: 谷歌基于Transformer的文生图模型

谷歌提出的一种利用transformer做文生图的模型，借用VQ-GAN生成离散编码，基于文本 + masking用transformer做掩码建模以及预测，推理时用并行解码（非自回归），得到效果与效率都很好的文生图模型。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

猴猴猪猪 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。