谷歌MaskGIT｜双向Transformer，图像生成新范式！

最新推荐文章于 2024-06-25 15:12:29 发布

李rumor

最新推荐文章于 2024-06-25 15:12:29 发布

阅读量2.5k

点赞数 3

文章标签：人工智能机器学习深度学习大数据计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37310036/article/details/122935309

版权

卷友们好，我是rumor。

图像生成长期以来一直被GAN所统治，虽然GAN的生成结果非常逼真，但在多样性方面却不如基于最大似然的方法（VAE、自回归模型等）。在去年，我们也看到了DALL-E、VQGAN等生成模型，模仿NLP的成功，利用Transformer来做图像生成，但这类方法有个很大的缺点，就是生成速度太慢了。

Transformer-based的图像生成基本完全参考NLP处理序列数据的做法，需要两个步骤：

Tokenization：自然语言都是离散值，而图像是连续值，想像NLP一样处理必须先离散化，iGPT里直接把图像变成一个个马赛克色块，ViT则是切成多块后分别进行线性映射，还有的方法专门学了一个自编码器，用encoder把图像映射成token，再用decoder还原
Autoregressive Prediction：用单向Transformer一个个token地预测，最终生成图像

虽然这类方法的生成结果还可以，但是从直觉上却不那么顺溜。仔细想人是怎么画画的，大多数人肯定是先画个草稿，然后再逐步细化、填色，由整体到局部，而不是从上到下从左到右一个个像素去填充。

MaskGIT的核心思想，就是参考人的作画逻辑，先生成一部分token，再逐渐去完善。

MaskGIT: Masked Generative Image Transformer
https://arxiv.org/abs/2202.04200

MaskGIT

MaskGIT的模型结构如下：

对于Tokenization步骤，直接参考VQGAN的思路，学习一个encoder-decoder。

主要的改进点在第二步上，在生成阶段，重复以下步骤：

并行预测所有被mask的部分，这时会给出一个概率最高的token和概率值
计算本轮要保留的token数目
根据数目倒推概率值，不满足条件的继续mask掉，回到步骤1重新生成

在训练阶段，不像BERT只mask掉15%，MaskGIT会随机选取各种值，来模拟生成阶段的情况。

生成阶段的核心，就在于如何计算这一轮要mask多少token，这个schedule函数有两个特性：

定义域在0到1之间、值域在0到1之间的连续函数

在对Linear、Concave、Convex三类函数实验后，发现Cosine是表现最好的：

从最终的效果可以看到，MaskGIT在图像质量上（FID、IS分数）接近当前最好的BigGAN，在速度上远胜VAGAN，在多样性（CAS分数）上超越了BigGAN：

同时作者发现，MaskGIT在编辑图像上有很大的潜力，尤其是class-conditioned image editing任务，自回归模型基本做不了，GAN来做也很难，对MaskGIT却十分容易，推动了一波鬼畜P图的发展（下面的例子让我深度怀疑作者是猫控）：

总结

MaskGIT作者在文中说到，双向Transformer的启发源自于机器翻译的一些工作，不过这却是图像领域的第一篇工作。MaskGIT的出发点相比单向自回归，在图像生成上更加make sense，相信之后也看到一些相关改进。

其中我想到一点，也是从直觉上出发的，我们人在画画时，免不了对草图的涂改，而MaskGIT是没有涂改机会的，有没有更好的soft mask方式，或者迭代策略，可以对已经生成完的token进行迭代，这样说不定就能超过GAN的生成质量了。

大家好我是rumor

一个热爱技术，有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「好久不见甚是想念，情人节快乐🌹」

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
谷歌MaskGIT｜双向Transformer，图像生成新范式！

卷友们好，我是rumor。图像生成长期以来一直被GAN所统治，虽然GAN的生成结果非常逼真，但在多样性方面却不如基于最大似然的方法（VAE、自回归模型等）。在去年，我们也看到了DALL-E...
复制链接

扫一扫

李rumor CSDN认证博客专家 CSDN认证企业博客

码龄8年

137: 原创

3万+: 周排名

2万+: 总排名

13万+: 访问

: 等级

1794: 积分

296: 粉丝

194: 获赞

23: 评论

423: 收藏

私信

关注

热门文章

最新评论

Alignment下一站：合成数据
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
在线求生
釉色清风: 宝藏博主！
谷歌MaskGIT｜双向Transformer，图像生成新范式！
jysx1234: 你好，请问下，这个模型可以做超分辨率吗？可以直接把VAE的输入换成低分辨率图像吗？
大模型对齐阶段的Scaling Laws
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
程序员如何写简历｜附10个模版
小仰: 单页链接：https://pan.baidu.com/s/1w1nsYMkm6LTimHtGSQYJ2w?pwd=vu7e 提取码：vu7e 双页链接：https://pan.baidu.com/s/1PMco2MJq-G9n0Y1pKs3mkA?pwd=bcpl 提取码：bcpl 三页链接：https://pan.baidu.com/s/1uy5YrQBIQzPvdfOW-3fQNQ?pwd=phnx 提取码：phnx

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。