SSA-GAN:Text to Image Generation with Semantic-Spatial Aware GAN

1 研究目的

现有基于生成对抗网络(GANs)的文本到图像生成模型存在的两个主要局限性:

1)整体批量归一化方法在整个图像特征图上平等应用,忽略了局部语义

2)文本编码器在训练过程中保持固定

为了解决这些局限性,作者提出了一种名为语义空间感知GAN(SSA-GAN)的新框架,该框架采用端到端的方式训练,使得文本编码器能够获取更好的文本信息。具体来说,作者引入了一种新颖的语义空间感知卷积网络(SSACN),具有以下功能:

1)根据文本学习语义自适应变换以有效融合文本特征和图像特征

2)以弱监督方式学习一个掩码图,依赖于当前的文本-图像融合过程以指导变换空间。

2 模型架构

2.1 整体结构

该图是SSA-GAN的框架图,主要包括一个生成器和一个鉴别器

        生成器中有一个预训练的文本编码器(text encoder),该文本编码器是一个双向的LSTM(长短期记忆网络),为了提高图像的质量和文本图像融合过程,并帮助生成器联合训练编码器,作者在文本编码器中添加了DAMSM(深度注意多模态相似模型),为了最小化DAMSM的损失,需要使用真实的图像-文本对进行预训练。

        上述生成器DAMSM的描述是针对研究目的中的第二个局限性,在之前的工作中,文本编码器的参数都是固定的,并没有使其和生成器一起训练,以学习更好的文本表示以生成图像。所以在下面的实验中,作者将会对DAMSM进行微调,使其与生成器一起训练,但结果没有达到预期的效果(仅代表个人观点)。

  • 生成器有两个输入,一个是文本输入,另一个是噪声向量输入,文本输入到预训练的文本编码器中,得到句子特征,噪声向量经过全连接层并对其进行重塑得到初始特征
  • 句子特征和得到的图像初始特征被送入到SSACN中,得到最终的图像特征,经过卷积层和tanh函数生成256*256的图像(其中SSACN有7块)
  • 将该图像送入到鉴别器中,经过一个卷积层和6个下采样层,将得到的图像特征信息和句子特征相结合,一起经过两个卷积层,得到对抗性损失L_{A},以促进生成器生成更高质量的图像

2.2 SSACN结构

SSACN是由一个上采样块,掩码预测器,残差块和语义-空间条件批处理规范化(SSCBN)组成

2.2.1 上采样

上采样块用于通过双线性插值操作对图像特征图的宽度和高度进行双倍处理

2.2.2 残差块

残差块用于维护图像特征的主要内容,以防止与文本无关的部分发生变化,图像信息被文本信息淹没。

2.2.3 掩码预测器

输入图像特征,经过卷积层,BN(批处理规范化),Relu,卷积,sigmoid,得到预测的掩码图,即空间条件。

        该掩码图直观的指示了当前图像特征映射的哪部分需要使用文本信息进行细节增强,以便细化的图像特征与给定文本的语义更加一致。

        掩码预测器与整个网络联合训练,没有特定的损失函数来指导其学习过程或额外的掩码注释。唯一的监督来自鉴别器给出的对抗性损失,因此它是一个弱监督学习过程

2.2.4 语义条件批处理规范化(SCBN)

先来介绍一下BN:

  • BN会在batch size这个维度,对不同样本的同一个通道直接做归一化,得到C个均值和方差,以及C个γ , β

  • 然后,操作通道仿射变换:

    其中 γc 和 βc 是学习参数,它平等地处理批次中所有样本的所有空间位置。

    在测试过程中,学习到的 γc 和 βc 是固定的。

  • BN是一种用于神经网络的归一化技术,用于对输入数据进行规范化。
  • 它在每个小批量(batch)的数据中,对每个特征维度进行标准化,使其均值接近于0,方差接近于1。

BN层的作用主要有三个:

  1. 加快网络的训练和收敛的速度
  2. 控制梯度爆炸防止梯度消失
  3. 防止过拟合

介绍CBN

除了上述BN使用从训练数据中学习到的一组固定的 γ 和 β,Dumoulin等人在BN的基础上提出了 CBN,它学习适应仿射变换给定条件调制参数 γ 和 β。然后,上述等式 (2) 可以重新表述为(即将上述公式2的参数换成函数):

SCBN(语义条件批处理规范化)中的条件指的就是文本特征向量,文本特征向量通过MLP(多层感知器)来调制参数\gamma\beta

2.2.5 语义-空间条件批处理规范化(SSCBN)

理想情况下,作者希望在不添加更多的空间信息时,微调只对特征图像中与文本相关的部分起作用。

于是,作者将掩码预测器输出的预测掩码图添加到SCBN(语义条件批处理规范化)中作为空间条件,即语义-空间条件批处理规范化(SSCBN)。

3 实验

数据集:CUB、COCO

评价指标:IS、FID

以前的工作报告说IS指标在评估合成图像时完全失效,所以作者在此处没有在COCO数据集上的IS

上表展示的是SSA-GAN和其他主流的GAN模型进行比较

作者通过该实验来验证添加组件(SSACN、DAMSM)的有效性。

第四行中,fine-tune在2.1节有描述(在之前的工作中,其参数都是固定的...........)

该实验表明,更多的掩码映射有助于文本图像融合过程,使生成的图像更加真实和文本图像一致(即更高的IS分数)。更深层次的文本图像融合也使得生成图像变得更加多样化,从而导致更高的FID

左侧四列是在CUB数据集上生成的图像

右侧四列是在COCO数据集上生成的图像

上图显示了不同阶段学习的掩码图,从左到右依次是:输入的文本,生成的图像,7个预测掩码图(从较浅层到较深层)。

        从上图中可以看到,当文本图像融合的更深时,掩码图变得更加集中在整个鸟上来生成鸟,然后在鸟的特定局部部分,以细化鸟的细节,对应上2.2.3部分所提到的。直观地表明,掩码映射是基于当前生成的图像特征预测的,加深了文本图像融合过程。

4 优点

  • 提出了一种新的框架SSA-GAN,可以端到端地进行训练,使得文本编码器能够为生成图像学习更好的文本表示。
  • 引入了一种新的语义-空间感知卷积网络(SSACN)模块,通过预测空间掩码图来引导学习的文本自适应仿射变换,从而有效地融合文本和图像特征。
  • SSACN模块通过弱监督方式进行训练,无需额外的标注(2.2.3有讲解)。

5 存在的不足:

(仅个人观点)

  1. 实验仅在COCO和CUB鸟类数据集上进行评估,可能在其他数据集上的表现不同。
  2. 对于生成的图像的质量和一致性,可能还有进一步优化的空间。

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值