GigaGAN:Scaling up GANs for Text-to-Image Synthesis

1 研究目的

        现在文本生成图像的主流模型是主导范式、扩散模型和自回归模型,但其都依赖于迭代推理。

        迭代方法能够以简单的目标实现稳定的训练,但在推理过程中会产生较高的计算成本。

        将其与生成对抗网络进行对比,后者通过一次前向传递生成图像,因此本质上是高效的。

 所以作者提出是否能够直接扩大 GAN 以从 LAION 等大型数据集中受益并在文本到图像合成中保持竞争力?所以作者介绍了 一种新的GAN架构——GigaGAN

        GigaGAN是由生成器、鉴别器和一种新的、快速地基于gan的上采样器模型组成(上采样器在模型就结构图中没有体现,但在实验中作者与其他上采样器做了对比)

2 模型结构

2.1 生成器结构

GigaGAN的生成器:映射网络M和生成网络\widetilde{G}组成

  • 对输入的提示符进行标识化得到条件向量c,从预训练的CLIP特征提取器中提取特征
  • 考虑到灵活性,作者在可学习的文本编码器上添加了注意力层用来处理词嵌入
  • 将特征送入到注意力层得到  本地文本描述t_{local}和全局文本描述t_{global}本地文本描述t_{local}作为特征送入到合成网络\widetilde{G}的交叉注意力层,全局文本描述t_{global}和潜在代码一起被送入到映射网络M中得到样式向量w
  • 样式向量w通过样本自适应内核选择来调制主生成器
  • 合成网络通过将本地文本描述t_{global},学习得到的常数张量和样式向量w条件一起合成多尺度的金字塔图像。
  • 由于卷积滤波器只在其领域范围内运行,它无法将自己与图像的远处相结合,所以作者添加了注意力层,并且通过注意力层和卷积层来提高生成器的性能。

2.2 样本自适应内核选择

  • 首先实例化了一组N个过滤器(Filter Bank)
  • 样式向量w通过两个放射层(Affine),首先经过第一个放射层预测一组权重来平均过滤器,以产生一个聚合滤波器(Selected Filter),其中基于softmax的加权可以看作是基于输入条件的可微滤波器的选择过程。其次样式向量w经过第二个放射层正则和卷积通道,最终对权重进行调制(其中\bigotimes表示调制)
  • 样本自适应内核选择在生成网络\widetilde{G}中的每一层都有应用。

2.3 鉴别器的结构

  • 鉴别器是由两个分支组成,文本分支用来处理文本特征,图像分支用来处理不同尺度的图像金字塔,每个尺度都是独立预测的,是一个多尺度输入和多尺度输出的鉴别器。
  • 为了从不同尺度上提取特征,作者定义类一个特征提取器\phi,每层都是有一个自注意力层和步长为2的卷积组成。
  • 然后通过函数\psi对两个分支的特征预测真假(R/F)。

3 实验

3.1 组件有效性

        从结果我们可以看出,直接扩大StyleGAN2会导致模型效果不理想,而且会使训练不稳定,所以作者通过一个一个增加组件来证明GigaGAN的组件的有效性,最终的模型是优于StyleGAN2的

3.2 与其他模型进行比较

        在同量级512上,与SD-v1.5进行比较,其执行速度比SD快近数十倍,与不同量级进行比较,其整体是优于其他模型的

3.3 与SD-distilled进行比较

3.4 上采样器比较

GigaGAN的上采样器与其他常用的上采样器进行比较,仅需要3.66s就可以生成一个1600万像素的图像,清晰度也是优于其他上采样器的。

3.5 可控比较

3.6 潜在空间编辑应用

3.6.1 风格混合

        GigaGAN保留了StyleGAN2的未纠缠的潜在空间,能够将一个样本的粗风格和细风格结合起来,生成新的风格。

Q:什么是未纠缠的潜在空间?

        为了更好的对数据进行分类或生成,需要对数据的特征进行表示,但是数据有很多特征,这些特征相互关联,耦合性比较高,即很容易发生特征纠缠。

        因此需要寻找这些表面特征之下隐藏的深层次的关系,讲这些关系进行解耦,得到隐藏特征,即latent code。由latent code组成的空间就是latent space。

Q:风格混合是如何实现的?

        在训练过程中使用两个随机潜码而不是一个。在生成图像时,在生成网络\widetilde{G}中随机选一个中间的交叉点,把一个潜码切换到另一个潜码(即称为风格混合)即可。

        通过映射网络M生成两个潜码z1和z2,的带相应的w1和w2控制风格,w1被用在网络索贝选择的位置点之前,w2在该位置点之后。

3.6.2 提示插值

        从左向右:现代风格的公馆——>维多利亚风格的公馆

        从上到下:晴朗的——>日落

        GigaGAN在提示之间实现了平滑插值,对相应的文本嵌入t和样式向量w进行插值已创建平滑转换,且风格可控。

3.6.3 提示混合

        直接使用文本提示控制样式

4 优点

  • 推理速度快:GigaGAN在推理速度上比扩散模型快数个数量级,仅需要0.13s就可以合成一个512px的图像。
  • 高分辨率图像生成:GigaGAN能够生成高分辨率的图像,仅需要3.66s生成1600万像素的图像
  • 支持多种潜在空间编辑应用:GigaGAN支持潜在插值、风格混合等多种潜在空间编辑应用。

5 缺点

视觉质量不能和DALL e2等生产级模型相比

上面一行是DALL e2模型生成

下面一行是GigaGAN模型生成

  • 25
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值