GAWWN:Learning What and Where to Draw

17 篇文章 11 订阅
17 篇文章 11 订阅

本篇blog的内容基于原始论文Learning What and Where to Draw(NIPs2016)和《生成对抗网络入门指南》第七章。


通过上一章根据风格的文本生成图像效果,我们想更好的控制生成图像。比如对于鸟类数据集,通过文字控制不同姿态的鸟,出现在图像中的位置等等。本篇论文提出一种能解决画什么和画在哪里(What and Where)的生成对抗网络GAWWN——一种同时基于文本条件与位置或姿态条件的生成对抗网络。核心是将额外的位置和画什么的条件信息加入生成器和判别器的训练中


一、 优化方式

采取对风格编码器平方损失:

                                                                 \L _{style}=E_{t,z\sim N(0,1)}\left \| z-S(G(z,\varphi (t))) \right \|^2_2

S为风格编码网络,通过图像生成器和风格编码器产生图片。

                                                             

二、 网络结构GAWWN

1. 基于位置的文本到图像生成架构图

① 生成器

首先,从左边生成器开始,原始输入数据通过随机噪声z生成数据;输入文本信息的条件,经过空间复制剪裁卷积,然后进行卷积得到条件信息。随机数据和条件数据组成输出数据,进行反卷积然后通过剪裁和深度连接,然后再进行反卷积生成图像。

② 判别器

通过图像 卷积后生成数据,然后结合先前文本信息经过词向量后的数据结合,然后进行剪裁,通过最后的全连接层sigmoid得到一个概率。

 

2. 基于姿态的文本到图像生成框架图

结构同上,另外新加入了空间姿态信息(使用的是一个定位MxMxK的三维数据图)

 

三、 编码方式

(同Generative Adversarial Text to Image Synthesis的编码方式)

采取结构联合embedding的方式。结构损失:

f_v 和 f_t 定义:

 

四、 实验结果

1. Where

2. what

 3. 在人类数据集上实验

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值