GALIP:GAN再超扩散模型;质量更高,速度更快,内容更可控的文本到图像生成...

本文作者 牛超超

根据文本生成高质量的复杂图像是一项具有挑战性的任务。基于大规模预训练,自回归和扩散模型可以合成逼真的图像。尽管这些大型模型取得了显著进步,但仍存在三个不足:

1)这些模型需要大量的训练数据和参数才能获得良好的效果。

2) 需要通过多步生成,严重降低了图像生成速度。

3)生成的视觉特征难以控制,需要精心设计提示。

为了同时实现生成质量高、训练高效、生成速度快,以及内容更可控的文本到图像生成模型,作者提出了 Generative Adversarial CLIPs,即 GALIP。如图1所示,GALIP 在判别器和生成器中都利用了强大的预训练 CLIP 模型。

071359eccb69a91b1acc113d34063a3d.jpeg

图 1.(a)以前的文本到图像生成对抗网络。(b).基于预训练CLIP的生成对抗网络。

具体来说,GALIP首先提出了一个基于 CLIP 的判别器。CLIP 的复杂场景理解能力使判别器能够更加准确地评估复杂图像的质量。此外,还提出了一个 CLIP 增强的生成器,它通过Bridge Feature和Prompts从 CLIP 中抽取有用的视觉概念。集成 CLIP 的生成器和判别器提高了对抗学习效率,使得GALIP只需要大约 3% 的训练数据和 6% 的可学习参数(如图2所示),仅用8张3090显卡训练3天时间,取得了与大规模预训练的自回归和扩散模型相当的结果。同时,GALIP的生成速度也快了120倍,且继承了 GAN 更加可控的平滑隐空间。广泛的实验结果证明了 GALIP 的卓越性能。目前代码已开源到GitHub上 (https://github.com/tobran/GALIP)。

0409e7bc8d023cfcd2f6f30826e79cbc.png

图 2 相比于Latent Diffusion Model (LDM),GALIP在取得相当的性能的同时,只需要极少的训练数据,并且生成图片的速度快近120倍

模型框架:

64d356370166106ac1aa4eac61aa65a9.png

图 3. GALIP的具体结构。

GALIP的框架如图3所示,GALIP在判别器和生成器中都集成了CLIP模型。包括基于CLIP的判别器和CLIP增强的生成器。基于CLIP的判别器继承了CLIP的复杂场景理解能力。它由一个冻结的基于ViT的CLIP图像编码器 (CLIP-ViT) 和一个可学习的协同判别器 (Mate-D) 组成。Mate-D与CLIP-ViT一起配合进行对抗训练。为了在CLIP-ViT中保留复杂场景理解的知识,冻结 CLIP-ViT 的权重并从不同层收集预测的CLIP图像特征。然后,Mate-D 从收集的CLIP特征中进一步提取有效的视觉特征,以区分合成图像和真实图像。

此外,GALIP还提出了CLIP增强的生成器,它发挥了CLIP的泛化能力。普通的生成器很难直接合成复杂的图像。一些工作使用草图和布局作为中间域来减轻难度。然而,这样的设计需要额外的标记数据。与这些工作不同的是,CLIP出色的泛化能力促使我们认为CLIP-ViT可能存在一个隐含的中间域,相比复杂图片,它更容易合成,且能够将中间域的特征转换为有用的视觉概念。因此,作者设计了CLIP增强的生成器。它由一个冻结的CLIP-ViT和一个可学习的协同生成器 (Mate-G) 组成。Mate-G 首先从文本和噪声中预测隐式中间特征(Bridge Feature)。然后CLIP-ViT将Bridge Feature映射到有用的视觉概念。此外,GALIP向CLIP-ViT添加了一些根据文本预测的Prompt以进行任务适应。预测的视觉概念缩小了文本特征和目标图像之间的差距,增强了复杂图像的合成能力。

实验结果:

作者在CUB,COCO,CC3M,CC12M数据集上进行了验证,使用FID和CLIP-SIM(CS)恒量图像的真实性和与文本的匹配度。在常规的文本到图像实验的对比上,GALIP取得了最优的的结果(如Table1所示)。

af36371cb3b4ec00cb5e88b4b363f43e.png

同时,与预训练大模型在Zero-shot场景下进行对比(如Table2所示),GALIP取得了和大规模预训练模型相当的结果,且显著降低了训练所需的数据和参数。

5f7aec6c0831713e7a0f2c9e7568f3af.png

对比GALIP和当前流行的Latent Diffusion Model生成的图片,如图4所示,可以看到GALIP能够更好,更准确的生成复杂图片,而Latent Diffusion Model有时会生成错误的对象。

d6b717b1f9f7dd46f2e9230c01e2f94c.png

图 4. GALIP和Latent Diffusion Model生成图片的对比

同时,GALIP继承了GAN平滑的隐空间,这使得模型可以通过在不同的latent vector之间插值,从而生成平滑变化的图像(如图5所示)。

0013fe6eae5d329d2a6ec130dbae44b6.png

图 5. 通过在不同文本向量之间插值,GALIP能够生成平滑变化的图像。

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

ccf6964a75b35df00eb32bac07984ba0.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群 !

扫描下面二维码,添加运营小妹好友,拉你进群。发送申请时,请备注,格式为:研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

be36cf81459291af0508b060fbcd2085.jpeg

请备注格式:研究方向+地区+学校/公司+姓名

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值