本篇blog的内容基于原始论文Learning What and Where to Draw(NIPs2016)和《生成对抗网络入门指南》第七章。
通过上一章根据风格的文本生成图像效果,我们想更好的控制生成图像。比如对于鸟类数据集,通过文字控制不同姿态的鸟,出现在图像中的位置等等。本篇论文提出一种能解决画什么和画在哪里(What and Where)的生成对抗网络GAWWN——一种同时基于文本条件与位置或姿态条件的生成对抗网络。核心是将额外的位置和画什么的条件信息加入生成器和判别器的训练中。
一、 优化方式
采取对风格编码器平方损失:
S为风格编码网络,通过图像生成器和风格编码器产生图片。
二、 网络结构GAWWN
1. 基于位置的文本到图像生成架构图
① 生成器
首先,从左边生成器开始,原始输入数据通过随机噪声z生成数据;输入文本信息的条件,经过空间复制剪裁卷积,然后进行卷积得到条件信息。随机数据和条件数据组成输出数据,进行反卷积然后通过剪裁和深度连接,然后再进行反卷积生成图像。
② 判别器
通过图像 卷积后生成数据,然后结合先前文本信息经过词向量后的数据结合,然后进行剪裁,通过最后的全连接层sigmoid得到一个概率。
2. 基于姿态的文本到图像生成框架图
结构同上,另外新加入了空间姿态信息(使用的是一个定位MxMxK的三维数据图)
三、 编码方式
(同Generative Adversarial Text to Image Synthesis的编码方式)
采取结构联合embedding的方式。结构损失:
和 定义: