欢迎来到我们的科技专栏!最近,文本到图像合成技术的成功引起了全球的轰动,激发了公众的无限想象力。从技术角度看,这也标志着在设计生成图像模型的架构上发生了巨大的变化。曾经,生成对抗网络(GANs)是事实上的首选技术,例如StyleGAN。然而,随着DALL-E 3自回归和扩散模型的出现,这些新模型一夜之间成为大规模生成模型的新标准。
GAN的局限性与GigaGAN的诞生
这种快速的转变引发了一个基本问题:我们能否扩展GANs以从大数据集(如ImageNet)中受益?研究发现,单纯增加StyleGAN架构的容量会迅速变得不稳定。就在这时,GigaGAN项目应运而生。在GigaGAN项目的基础上,我们迎来了一个令人惊叹的模型——Aura SR。
Aura SR的初版与改进
我在一个多月前已经介绍过这个模型的第一个版本,如果你有兴趣,可以查看那段内容。我对这个模型印象深刻,用简单的话来说,这个模型可以 显著提高图像的分辨率。现在,他们发布了这个模型的第二个版本。
Aura SR基于Adobe的GigaGAN论文,使用了Lucy Train的实现作为起点。GigaGAN上采样器专为生成图像设计,缺乏在训练期间的降解预处理,因此第一个版本的Aura SR无法在不产生伪影的情况下放大压缩的JPG图像。新版本解决了这个问题,并进一步提高了图像质量。