上手AIGC必读经典算法——如何引入文本信息?来看 StackGAN

StackGAN 论文阅读笔记

论文结构

  1. Introduction
  2. Related Work
  3. Stacked Generative Adversarial
    Networks
    3.1 Preliminaries
    3.2 Conditioning Augmentation
    3.3 Stage-I GAN
    3.4 Stage-II GAN
    3.5 Implementation details
  4. Experiments
    4.1 Datasets and evaluation metrics
    4.2 Quantitative and qualitative results
    4.3 Component analysis
  5. Conclusions

摘要

原文

Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing text-to-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256x256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.

核心

  1. 现有文本到图像方法生成的样本,可以大致表达出给定的文本含义,但是图像细节和质量不佳
  2. StackGAN能基于文本描述,生成256*256分辨率的照片级图像
  3. 把问题进行了分解,采用 草图绘制-精细绘制 两阶段过程
  4. 阶段1的GAN根据给定的文本描述,来绘制对象的原始形状和颜色;阶段2的GAN使用文本描述和阶段1的输出来作为输入,通过纠正草图中的缺陷和细节生成,来最终得到更高分辨率的图像
  5. 还提出了一种条件增强方法,能够增强潜在条件流形的平滑性
  6. 大量实验表明,以上方法在以文本描述为条件的照片级图像生成上取得了显著进步

研究背景

Research background

Energy-Based(EB) GAN


将判别器视作一个energy function,函数值(非负)越小代表data越可能是真实数据

使用自编码作为判别器(energy function)

判别器可以单独使用真实数据进行提前的预训练

可以基于ImageNet数据集训练,生成256*256分辨率的图片

image-20221004093702170

文本生成图像

• VAE
• DRAW(Deep Recurrent Attention Writer)

  • •使用循环神经网络+注意力机制
  • •依次生成一个个对象叠加在一起得到最终结果

• GAN

  • 在生成器中,text embedding跟随机噪声融合后一起输入到生成网络中
  • 鉴别器会对错误情况进行分类,一种是生成的fake图像匹配了正确的文本,另一种是真实图像但匹配了错误文本

研究成果

Research Results

首次在文本到图像的任务中,生成了256*256分辨率的高质量图像

提出的条件增强方法,能增强模型的鲁棒性并提升生成效果的多样性


成为了文本生成图像任务中的一个里程碑

基于VAE思想的条件增强方法,对之后的研究者造成了一定启发

条件增强

条件增强
Conditioning Augmentation

文本嵌入的隐空间维度通常非常高(> 100),在数据量有限的情况下,这通常会导致隐数据流形中的不连续性


从高斯分布 中随机采样latent code,是关于词向量 的函数

image-20221004103231792


均值μ和方差Σ使用一个全连接层来求解

把KL散度作为一个正则项加入生成器的训练

使用重参化技巧

使用上述的条件增强方法后,可以产生更多的训练数据,使条件流形更加平滑

增加的采样随机性,可以使输入同一个句子时产生不同的输出图像

两阶段的GAN

Stacked GAN

image-20221004103502170

阶段1

从标准高斯分布中采样得到z,与从条件增强方法采样得到的 进行concat作为输入

为文本描述所对应的真实图像,在所有实验中λ都设为1

在判别器中,输入图像经过下采样,最终得到长宽为M的矩阵;而词向量会先经过全连接层来压缩到N维,然后在空间维度上复制变为MMN的矩阵

图像和词向量的矩阵concat到一起,再通过1*1卷积和全连接层得到最终的输出分数

阶段2

image-20221004110114039


把阶段1的输出 与又一次条件增强采样得到的 进行concat作为输入

在生成器中增加了残差block;判别器中的负样本有真实图像-错误文本,生成图像-正确文本两种情况

实现细节

上采样使用最近邻resize + 33卷积

除了最后一层外,在每个卷积层之后都使用了BN和ReLU

在128
128的StackGAN中使用了2个残差block,在256256中使用了4个

判别器中,下采样的block使用4
4步长为2的卷积,除了第一层没使用BN外,别的都使用了BN和LeakyReLU

首先训练阶段1的GAN 600个epochs,接着将其固定,再训练阶段2的GAN 600个epochs

都使用Adam优化器,batch size设为64

初始学习率设为2e-4,之后进行指数衰减,每100个epochs衰减到1/2

评价方式

客观评价
• 使用Inception Score
• 在COCO数据集上,直接使用预训练的
Inception模型
• 对于CUB和Oxford-102,使用finetune后的Inception模型
主观评价
• 从COCO的验证集中随机选择4k个文本描述
• 从CUB和Oxford-102的测试集中每个类别随机选择50个文本描述
• 对于每个描述,使用模型生成5个图像
• 在相同的文本描述下,10个评测者对不同模型输出的结果进行排名

模型对比

模型比较
• 对于CUB、Oxford-102和COCO三个数据集,StackGAN在客观和主观评价上都取得了最佳结果
• GAN-INT-CLS只能生成64*64分辨率的图像,缺乏图像细节,得分较低
• GAWWN虽然可以取得更高的得分,但需要使用额外的输入信息,否则无法取得任何有意义的输出,并且得分仍然低于StackGAN

image-20221004111152360

image-20221004111204072

• 阶段1的GAN能够绘制对象的粗略形状和颜色,但一般模糊不清,缺少细节并带有各种缺陷,特别是对于前景目标
• 阶段2的GAN会在阶段1的基础上进一步补充细节,并且在阶段1没能绘制出合理的形状时,仍然能生成合理的对象
• 使用阶段2的判别器来提取生成图像和真实图像的特征,以寻找离生成图像最接近的真实图像,结果表明,生成的结果并不是简单的复制真实图像

image-20221004111234997

论文总结

• 提出了堆叠的GAN网络,结合条件增强方法,能够生成照片级的图像
• 其中阶段1的GAN网络根据给定的文本描述,来生成颜色和形状基本满足要求的草图
• 阶段2的GAN网络,能够纠正阶段1结果的缺陷,并增加更多细节
• 一系列实验显示,与现有的文本到图像方法相比,StackGAN能生成具有更高分辨率更多细节和多样性的目标图像

论文总结

• 提出了堆叠的GAN网络,结合条件增强方法,能够生成照片级的图像
• 其中阶段1的GAN网络根据给定的文本描述,来生成颜色和形状基本满足要求的草图
• 阶段2的GAN网络,能够纠正阶段1结果的缺陷,并增加更多细节
• 一系列实验显示,与现有的文本到图像方法相比,StackGAN能生成具有更高分辨率更多细节和多样性的目标图像

image-20221004111528175

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yuetianw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值