《Generative Adversarial Text to Image Synthesis》阅读理解

最新推荐文章于 2024-08-16 07:50:10 发布

TayYoung

最新推荐文章于 2024-08-16 07:50:10 发布

阅读量3.4k

点赞数 1

分类专栏：科研文章标签：深度学习神经网络生成对抗网络图像合成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TayYoung/article/details/78713020

版权

该博客介绍了如何使用生成对抗网络（GAN）将文本描述转化为逼真的图像。研究聚焦于DC-GAN，通过匹配感知判别器（GAN-CLS）和流形插值（GAN-INT）改进了模型。实验在CUB鸟类和Oxford-102花卉数据集上进行，展示了解决图片合成和风格转换的能力。

摘要由CSDN通过智能技术生成

1.简介

从文本描述自动合成真实的图像，也就是把人类所写的一句描述性文本翻译成一系列像素点。例如，“this small bird has a short, pointy orange beak and white belly” 或者 ”the petals of this flower are pink and the anther are yellow”。下图是一个从文本描述生成图像的例子。

这里写图片描述

目标：学习一个映射直接把单词和字符转换成图像像素。两步走：首先，捕获重要的视觉细节用来学习一个文本的特征表示；其次，使用这些特征去合成一个人类难分真假的图像。
贡献：设计了一个简单有效的生成对抗网络(GAN)框架，并制定了一个训练策略能够用描述性的文本去合成关于花鸟的图像。
数据集： Caltech-UCSD Birds dataset（鸟）；Oxford-102 Flowers dataset（花）；甚至MS COCO dataset（普通图像）。
注：每张图片都对应有五个描述文本。

2.背景

生成对抗网络

生成对抗网络包括一个生成器（ $G$ ）以及一个判别器（ $D$ ），它们进行一个二元极大极小博弈：判别器尽可能从合成图像中分辨真实的训练图像；生成器尽可能去愚弄判别器。具体而言， $G$ 和 $D$ 博弈表示形式如下：

m i n G m a x D V (D, G) = E x \sim p d a t a (x) [l o g (D (x))] + E x \sim p z (

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TayYoung CSDN认证博客专家 CSDN认证企业博客

码龄10年

8: 原创

62万+: 周排名

161万+: 总排名

2万+: 访问

: 等级

338: 积分

2: 粉丝

3: 获赞

3: 评论

15: 收藏

私信

关注

热门文章

分类专栏

日常琐事 2篇
科研 6篇

最新评论

MS COCO数据集分析
「已注销」: 刚刚接触coco数据集，请问coco2017和coco2014有什么区别吗？coco2017是完全包含coco2014吗？
.tff文件删除问题
zdd908581871: 为什么点删除之后快捷方式还在
理解《A Survey on Transfer Learning》
新人类6666: 感谢您的博文。我也看了这篇文章，但是感觉作者对于domain的定义还是太抽象了，feature space只能指不同种语言吗？那个marginal distribution到底是什么，是比如说一个单词在不同domain出现的概率不同吗？谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。