英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

扩散模型的图像生成统治地位,终于要被GAN夺回了?

就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的StyleGAN-T,一下子在网上火了。

cbbbf858ef55a76e5a0244d439ee4123.gif

无论是在星云爆炸中生成一只柯基:

dbd3ecde088cd30c5c089e4efca8f186.gif

还是基于虚幻引擎风格渲染的森林:

721a396d88a6879f1e4c4864fdfdef5b.gif

都只需要接近0.1秒就能生成!

同等算力下,扩散模型中的Stable Diffusion生成一张图片需要3秒钟,Imagen甚至需要接近10秒

不少网友的第一反应是:

GAN,一个我太久没听到的名字了。

c45d1fc7d7f9302e057778c59ae08032.png

很快谷歌大脑研究科学家、DreamFusion第一作者Ben Poole赶来围观,并将StyleGAN-T与扩散模型做了个对比:

在低质量图像(64×64)生成方面,StyleGAN-T要比扩散模型做得更好。

e6facce74740aae257814c3669242b41.png

但他同时也表示,在256×256图像生成上,还是扩散模型的天下。

所以,新版StyleGAN生成质量究竟如何,它又究竟是在哪些领域重新具备竞争力的?

StyleGAN-T长啥样?

相比扩散模型和自回归模型多次迭代生成样本,GAN最大的优势是速度

因此,StyleGAN-T这次也将重心放在了大规模文本图像合成上,即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下:

9cfa0eb9875cf91bb962ffa469339f69.png

具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本质量进行量化评估,并采用CLIP来对文本进行对齐。

在生成器上,作者们放弃了StyleGAN3中能实现平移同变性(equivariance)的架构,转而采用了StyleGAN2的部分设计,包括输入空间噪声以及跳层连接等,以提升细节随机变化的多样性。

在判别器上,作者们也重新进行了设计,采用自监督学习对ViT-S进行训练。

随后,作者采用了一种特殊的截断(truncation)方法来控制图像生成的效果,同时权衡生成内容的多样性。

只需要控制参数ψ,就能在确保CLIP分数(用于评估图像生成效果)变动不大的情况下,改善生成图像的风格多样性。

598cf8dc0eea7fba89d2aa7ac5f670ee.png

随后,作者们用64个英伟达A100训练了4周,最终得到了这版StyleGAN-T。

那么它的生成效果如何呢?

超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MS COCO数据集上,StyleGAN-T实现了64×64分辨率下最高的FID。

(其中,FID是计算真实图像和生成图像特征向量距离的评估用值,数值越低,表示生成的效果越接近真实图像)

2480a1f0d79aa8b3e2c599f867d60e0a.png

但在更高的256×256分辨率生成上,StyleGAN-T还是没有比过扩散模型,只是在生成效果上比同样用GAN的LAFITE要好上不少:

e0b26dedf410338ae380594b78a21202.png

如果进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图上来对比,还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在10FPS的速度下生成256×256分辨率图像,同时FID值逼近LDM和GLIDE等扩散模型:

6b9b8b1c9cf90ba0e4385700e42c5a5a.png

而在文本生成图像功能上,作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后,生成的图像确实符合描述:

063bf84a26fac8e6fb5bda29f9c70a84.png

即便是快速生成的图像,也能迅速控制风格,如“梵高风格的画”or“动画”等:

602a24a88c2e6bcbaf0b1e94e71b9083.png

当然,偶尔也有失败案例,最典型的就是生成带字母要求的图像时,显示不出正常字母来:

00439c423e9a139366b0b04c6ed42b3b.png

作者们正在努力整理代码,表示不久之后就会开源。

57a968d0f03cb3bde1868ce5344c6e35.png

作者介绍

作者们均来自图宾根大学和英伟达。

b025f5895dcb5f9e72badce598049bf2.png

一作Axel Sauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院(KIT)获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

0e0879b4e97148d7f5ab17f01b45e4f8.png

二作Tero Karras,英伟达杰出研究科学家,对英伟达RTX技术有重要贡献,也是StyleGAN系列的主要作者,主要研究方向是计算机图形学和实时渲染。

1b32be62ae362ad0db64a77095160f5a.png

不过在这波GAN掀起的“文艺复兴”浪潮下,也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨:

在这之前,最新StyleGAN生成的图像总能让我们大吃一惊,然而现在它给我们的印象只剩下“快”了。

74161e5b820f6d3daa09df603b3655f4.png

你认为GAN还能撼动扩散模型的统治地位吗?

论文地址:
https://arxiv.org/abs/2301.09515

项目地址:
https://github.com/autonomousvision/stylegan-t

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值