上手AIGC必读经典算法——如何引入文本信息？来看 StackGAN

Yuetianw

已于 2024-03-07 16:14:37 修改

阅读量645

点赞数 1

分类专栏：论文阅读文章标签：论文阅读

于 2022-10-04 11:46:46 首次发布

本文链接：https://blog.csdn.net/weixin_43499292/article/details/127160799

版权

论文阅读专栏收录该内容

8 篇文章 0 订阅

订阅专栏

StackGAN 论文阅读笔记

文章目录

StackGAN 论文阅读笔记

论文结构

Introduction
Related Work
Stacked Generative Adversarial
Networks
3.1 Preliminaries
3.2 Conditioning Augmentation
3.3 Stage-I GAN
3.4 Stage-II GAN
3.5 Implementation details
Experiments
4.1 Datasets and evaluation metrics
4.2 Quantitative and qualitative results
4.3 Component analysis
Conclusions

摘要

原文

Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing text-to-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256x256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.

核心

现有文本到图像方法生成的样本，可以大致表达出给定的文本含义，但是图像细节和质量不佳
StackGAN能基于文本描述，生成256*256分辨率的照片级图像
把问题进行了分解，采用草图绘制-精细绘制两阶段过程
阶段1的GAN根据给定的文本描述，来绘制对象的原始形状和颜色；阶段2的GAN使用文本描述和阶段1的输出来作为输入，通过纠正草图中的缺陷和细节生成，来最终得到更高分辨率的图像
还提出了一种条件增强方法，能够增强潜在条件流形的平滑性
大量实验表明，以上方法在以文本描述为条件的照片级图像生成上取得了显著进步

研究背景

Research background

Energy-Based(EB) GAN

•
将判别器视作一个energy function，函数值（非负）越小代表data越可能是真实数据
•
使用自编码作为判别器（energy function）
•
判别器可以单独使用真实数据进行提前的预训练
•
可以基于ImageNet数据集训练，生成256*256分辨率的图片

文本生成图像

• VAE
• DRAW(Deep Recurrent Attention Writer)

•使用循环神经网络+注意力机制
•依次生成一个个对象叠加在一起得到最终结果

• GAN

在生成器中，text embedding跟随机噪声融合后一起输入到生成网络中
鉴别器会对错误情况进行分类，一种是生成的fake图像匹配了正确的文本，另一种是真实图像但匹配了错误文本

研究成果

Research Results
•
首次在文本到图像的任务中，生成了256*256分辨率的高质量图像
•
提出的条件增强方法，能增强模型的鲁棒性并提升生成效果的多样性

•
成为了文本生成图像任务中的一个里程碑
•
基于VAE思想的条件增强方法，对之后的研究者造成了一定启发

条件增强

条件增强
Conditioning Augmentation
•
文本嵌入的隐空间维度通常非常高（> 100），在数据量有限的情况下，这通常会导致隐数据流形中的不连续性

•
从高斯分布中随机采样latent code，是关于词向量的函数

•
均值μ和方差Σ使用一个全连接层来求解
•
把KL散度作为一个正则项加入生成器的训练
•
使用重参化技巧
•
使用上述的条件增强方法后，可以产生更多的训练数据，使条件流形更加平滑
•
增加的采样随机性，可以使输入同一个句子时产生不同的输出图像

两阶段的GAN

Stacked GAN

阶段1
•
从标准高斯分布中采样得到z，与从条件增强方法采样得到的进行concat作为输入
•
为文本描述所对应的真实图像，在所有实验中λ都设为1
•
在判别器中，输入图像经过下采样，最终得到长宽为M的矩阵；而词向量会先经过全连接层来压缩到N维，然后在空间维度上复制变为MMN的矩阵
•
图像和词向量的矩阵concat到一起，再通过1*1卷积和全连接层得到最终的输出分数

阶段2

•
把阶段1的输出与又一次条件增强采样得到的进行concat作为输入
•
在生成器中增加了残差block；判别器中的负样本有真实图像-错误文本，生成图像-正确文本两种情况

实现细节
•
上采样使用最近邻resize + 33卷积
•
除了最后一层外，在每个卷积层之后都使用了BN和ReLU
•
在128128的StackGAN中使用了2个残差block，在256256中使用了4个
•
判别器中，下采样的block使用44步长为2的卷积，除了第一层没使用BN外，别的都使用了BN和LeakyReLU
•
首先训练阶段1的GAN 600个epochs，接着将其固定，再训练阶段2的GAN 600个epochs
•
都使用Adam优化器，batch size设为64
•
初始学习率设为2e-4，之后进行指数衰减，每100个epochs衰减到1/2

评价方式

客观评价
• 使用Inception Score
• 在COCO数据集上，直接使用预训练的
Inception模型
• 对于CUB和Oxford-102，使用finetune后的Inception模型
主观评价
• 从COCO的验证集中随机选择4k个文本描述
• 从CUB和Oxford-102的测试集中每个类别随机选择50个文本描述
• 对于每个描述，使用模型生成5个图像
• 在相同的文本描述下，10个评测者对不同模型输出的结果进行排名

模型对比

模型比较
• 对于CUB、Oxford-102和COCO三个数据集，StackGAN在客观和主观评价上都取得了最佳结果
• GAN-INT-CLS只能生成64*64分辨率的图像，缺乏图像细节，得分较低
• GAWWN虽然可以取得更高的得分，但需要使用额外的输入信息，否则无法取得任何有意义的输出，并且得分仍然低于StackGAN

• 阶段1的GAN能够绘制对象的粗略形状和颜色，但一般模糊不清，缺少细节并带有各种缺陷，特别是对于前景目标
• 阶段2的GAN会在阶段1的基础上进一步补充细节，并且在阶段1没能绘制出合理的形状时，仍然能生成合理的对象
• 使用阶段2的判别器来提取生成图像和真实图像的特征，以寻找离生成图像最接近的真实图像，结果表明，生成的结果并不是简单的复制真实图像

论文总结

• 提出了堆叠的GAN网络，结合条件增强方法，能够生成照片级的图像
• 其中阶段1的GAN网络根据给定的文本描述，来生成颜色和形状基本满足要求的草图
• 阶段2的GAN网络，能够纠正阶段1结果的缺陷，并增加更多细节
• 一系列实验显示，与现有的文本到图像方法相比，StackGAN能生成具有更高分辨率更多细节和多样性的目标图像