GAWWN：Learning What and Where to Draw

最新推荐文章于 2024-05-26 09:46:16 发布

置顶 gdtop818

最新推荐文章于 2024-05-26 09:46:16 发布

阅读量1.5k

点赞数

分类专栏：深度学习paper GAN 生成对抗网络Generative Adversarial Network paper_GAN 文章标签： GAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37993251/article/details/87615225

版权

深度学习paper 同时被 3 个专栏收录

21 篇文章 6 订阅

订阅专栏

17 篇文章 11 订阅

订阅专栏

17 篇文章 11 订阅

订阅专栏

本篇blog的内容基于原始论文Learning What and Where to Draw(NIPs2016)和《生成对抗网络入门指南》第七章。

通过上一章根据风格的文本生成图像效果，我们想更好的控制生成图像。比如对于鸟类数据集，通过文字控制不同姿态的鸟，出现在图像中的位置等等。本篇论文提出一种能解决画什么和画在哪里（What and Where）的生成对抗网络GAWWN——一种同时基于文本条件与位置或姿态条件的生成对抗网络。核心是将额外的位置和画什么的条件信息加入生成器和判别器的训练中。

一、优化方式

采取对风格编码器平方损失：

$\L _{style}=E_{t,z\sim N(0,1)}\left \| z-S(G(z,\varphi (t))) \right \|^2_2$

S为风格编码网络，通过图像生成器和风格编码器产生图片。

二、网络结构GAWWN

1. 基于位置的文本到图像生成架构图

① 生成器

首先，从左边生成器开始，原始输入数据通过随机噪声z生成数据；输入文本信息的条件，经过空间复制剪裁卷积，然后进行卷积得到条件信息。随机数据和条件数据组成输出数据，进行反卷积然后通过剪裁和深度连接，然后再进行反卷积生成图像。

② 判别器

通过图像卷积后生成数据，然后结合先前文本信息经过词向量后的数据结合，然后进行剪裁，通过最后的全连接层sigmoid得到一个概率。

2. 基于姿态的文本到图像生成框架图

结构同上，另外新加入了空间姿态信息（使用的是一个定位MxMxK的三维数据图）

三、编码方式

（同Generative Adversarial Text to Image Synthesis的编码方式）

采取结构联合embedding的方式。结构损失：

f_v 和 $f_t$ 定义：

四、实验结果

1. Where

2. what

3. 在人类数据集上实验

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GAWWN：Learning What and Where to Draw

本篇blog的内容基于原始论文Learning What and Where to Draw(NIPs2016)和《生成对抗网络入门指南》第七章。通过上一章根据风格的文本生成图像效果，我们想更好的控制生成图像。比如对于鸟类数据集，通过文字控制不同姿态的鸟，出现在图像中的位置等等。本篇论文提出一种能解决画什么和画在哪里（What and Where）的生成对抗网络GAWWN——一种同时基于文本条...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。