英伟达StyleGAN再升级！比 Stable Diffusion 快30多倍

最新推荐文章于 2024-06-11 21:20:32 发布

机器学习与AI生成创作

最新推荐文章于 2024-06-11 21:20:32 发布

阅读量456

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247499048&idx=1&sn=a8ac7bdc84e95a127e0238ff41f5b98d&chksm=fe2a5f93c95dd685ba979a8e27895c13feb8cab96a157dfcaa1a0de4c0e6faa7aeb4cb0a9a70&scene=126&sessionid=0

版权

萧箫发自凹非寺量子位 | 公众号 QbitAI

扩散模型的图像生成统治地位，终于要被GAN夺回了？

就在大伙儿喜迎新年之际，英伟达一群科学家悄悄给StyleGAN系列做了个升级，变出个PLUS版的StyleGAN-T，一下子在网上火了。

无论是在星云爆炸中生成一只柯基：

还是基于虚幻引擎风格渲染的森林：

都只需要接近0.1秒就能生成！

同等算力下，扩散模型中的Stable Diffusion生成一张图片需要3秒钟，Imagen甚至需要接近10秒。

不少网友的第一反应是：

GAN，一个我太久没听到的名字了。

很快谷歌大脑研究科学家、DreamFusion第一作者Ben Poole赶来围观，并将StyleGAN-T与扩散模型做了个对比：

在低质量图像（64×64）生成方面，StyleGAN-T要比扩散模型做得更好。

但他同时也表示，在256×256图像生成上，还是扩散模型的天下。

所以，新版StyleGAN生成质量究竟如何，它又究竟是在哪些领域重新具备竞争力的？

StyleGAN-T长啥样？

相比扩散模型和自回归模型多次迭代生成样本，GAN最大的优势是速度。

因此，StyleGAN-T这次也将重心放在了大规模文本图像合成上，即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍，基于ImageNet训练，能生成1024×1024高分辨率的图像，并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下：

具体到细节上，作者们对生成器、判别器和文本对齐权衡机制进行了重新设计，用FID对样本质量进行量化评估，并采用CLIP来对文本进行对齐。

在生成器上，作者们放弃了StyleGAN3中能实现平移同变性（equivariance）的架构，转而采用了StyleGAN2的部分设计，包括输入空间噪声以及跳层连接等，以提升细节随机变化的多样性。

在判别器上，作者们也重新进行了设计，采用自监督学习对ViT-S进行训练。

随后，作者采用了一种特殊的截断（truncation）方法来控制图像生成的效果，同时权衡生成内容的多样性。

只需要控制参数ψ，就能在确保CLIP分数（用于评估图像生成效果）变动不大的情况下，改善生成图像的风格多样性。

随后，作者们用64个英伟达A100训练了4周，最终得到了这版StyleGAN-T。

那么它的生成效果如何呢？

超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MS COCO数据集上，StyleGAN-T实现了64×64分辨率下最高的FID。

（其中，FID是计算真实图像和生成图像特征向量距离的评估用值，数值越低，表示生成的效果越接近真实图像）

但在更高的256×256分辨率生成上，StyleGAN-T还是没有比过扩散模型，只是在生成效果上比同样用GAN的LAFITE要好上不少：

如果进一步将生成时间和FID分别作为纵轴和横轴，放到同一张图上来对比，还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在10FPS的速度下生成256×256分辨率图像，同时FID值逼近LDM和GLIDE等扩散模型：

而在文本生成图像功能上，作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后，生成的图像确实符合描述：

即便是快速生成的图像，也能迅速控制风格，如“梵高风格的画”or“动画”等：

当然，偶尔也有失败案例，最典型的就是生成带字母要求的图像时，显示不出正常字母来：

作者们正在努力整理代码，表示不久之后就会开源。

作者介绍

作者们均来自图宾根大学和英伟达。

一作Axel Sauer，图宾根大学博士生，此前在卡尔斯鲁厄理工学院（KIT）获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

二作Tero Karras，英伟达杰出研究科学家，对英伟达RTX技术有重要贡献，也是StyleGAN系列的主要作者，主要研究方向是计算机图形学和实时渲染。

不过在这波GAN掀起的“文艺复兴”浪潮下，也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨：

在这之前，最新StyleGAN生成的图像总能让我们大吃一惊，然而现在它给我们的印象只剩下“快”了。

你认为GAN还能撼动扩散模型的统治地位吗？

论文地址：
https://arxiv.org/abs/2301.09515

项目地址：
https://github.com/autonomousvision/stylegan-t

猜您喜欢：

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群！

扫描下面二维码，添加运营小妹好友，拉你进群。发送申请时，请备注，格式为：研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

请备注格式：研究方向+地区+学校/公司+姓名

点击 一顿午饭外卖，成为CV视觉的前沿弄潮儿！，领取优惠券，加入 AI生成创作与计算机视觉 知识星球！

机器学习与AI生成创作

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。