StackGAN 学习笔记

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

作者:Han Zhang,Tao Xu,Hongsheng Li,Shaoting Zhang,Xiaogang Wang, Xiaolei Huang,Dimitris Metaxas 时间:2017年

会议:ICCV

前言:

  • 从文本描述中合成高质量的图像是计算机视觉中的一个具有挑战性的问题,并具有许多实际应用。现有的文本-图像方法生成的样例可以大致反映给定描述的含义,但不能包含必要的细节和生动的对象部分,因此,在该文中,作者们提出了StackGAN来生成基于文本描述的256x256真实感图像。该文通过一个粗略的细化过程将困难的问题分解为更易于管理的子问题。网络模型分为Stage-ⅠGAN和Stage-Ⅱ GAN。
    • Stage-I GAN根据给定的文本描述勾画出物体的原始形状和颜色,生成Stage-I低分辨率图像
    • Stage-II GAN将Stage-I结果和文本描述作为输入,并生成具有真实感细节的高分辨率图像。它能够纠正阶段i结果中的缺陷,并在细化过程中添加引人注目的细节。

网络模型:

1.目标函数

  • 在这里插入图片描述

2.结构

  • 在这里插入图片描述

3.条件增强技术(Conditioning Augmentation)

  • 由网络结构图可以看出,在第一阶段开始时刻,文本描述t首先经编码器编码得到描述文本的嵌入向量。而在此之前,处理这个问题的方法通常是将其非线性的转换成条件的隐变量输入到G中,但是这样做有一个很大的问题,通过因为隐变量所在的空间维度很高,在数据量有限的情况下,它会造成数据流形的不连续性,不易用来训练G。
  • 因此为了缓解这个问题,作者提出了一种新的条件增强技术,他会利用嵌入向量生成一个新的条件标量,并将其输入到G中。并且这个条件标量是从一个独立的高斯噪声中随机采样得到。该高斯分布的均值和对角关系函数都是嵌入文本向量的函数。
  • 该文提出的条件增强可以在给定少量图像文本对的情况下产生更多的训练对,从而增强对条件流形上的小扰动的鲁棒性

4.Stage-I GAN

  • 作者们没有直接根据文本秒速生成高分辨率的图像,而是首先使用Stage-I GAN生成一个低分辨率的图像,它只关注于绘制物体的粗略形状和正确的颜色。损失函数为在这里插入图片描述

5.Stage-II GAN

  • 由Stage-I GAN生成的低分辨率图像通常缺乏逼真的物体部分,并可能包含形状扭曲。文本中的一些细节也可能在第一阶段被省略,这对于生成真实感图像至关重要。我们的Stage-II GAN是在Stage-I GAN结果的基础上生成高分辨率图像的。它以低分辨率的图像为条件,并再次嵌入文本,以纠正Stage-I结果中的缺陷。Stage-II GAN完成了以前忽略的文本信息,已生成更逼真的细节。损失函数为在这里插入图片描述

实验结果

  • 在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值