Text to Image综述阅读（1.1）：介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review（基于GAN的文本生成图像）

最新推荐文章于 2024-11-19 13:48:28 发布

中杯可乐多加冰

最新推荐文章于 2024-11-19 13:48:28 发布

阅读量5.6k

点赞数 4

分类专栏：文本生成图像 text-to-image 文章标签：神经网络自然语言处理 T2I GAN text to image

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/air__Heaven/article/details/120718573

版权

文本生成图像 text-to-image 专栏收录该内容

64 篇文章

订阅专栏

Text to Image（一）介绍与基本原理

一、介绍
- 思维导图
二、基本原理

本系列是根据2021年的一篇论文《Adversarial Text-to-Image Synthesis: A Review》理解所写，主要在于总结和归纳基于GAN的“文本生成图像”（text to image）方向的研究情况。

论文地址：https://arxiv.org/abs/2101.09983

一、介绍

起源：基于GAN的文本生成图像，最早在2016年由Reed等人提出，最开始是Conditional GANs的扩展，仅在受限的数据集取得成果，小图像分辨率64*64。

2016到2020的发展：生成图像质量提升、所用数据集复杂性提升、生成图像的分辨率提升256*256、文本编码、损失代价函数、新的GAN架构、定量评价标准的提升。

目前的挑战：基于文本描述生成包含多个对象的复杂场景、分辨率的再次提升、重现许多方法的定量结果、评价指标不准，很难对结果进行定量比较。

思维导图

在这里插入图片描述

二、基本原理

GANs

GANs：生成对抗网络（Generative Adversarial Networks），实现方式是让两个网络相互竞争。其中一个叫做生成器网络（ Generator Network），它不断捕捉训练库中的数据，从而产生新的样本。另一个叫做判别器网络（Discriminator Network），它也根据相关数据，去判别生成器提供的数据到底是不是足够真实。

损失函数公式：
在这里插入图片描述

框架模型：
在这里插入图片描述

ConditionalGANs

Mirza等人提出了ConditionalGANs（cGAN）通过在生成器和鉴别器处加入条件变量y（例如，类别标签）
损失函数公式：
在这里插入图片描述框架模型：

Text encoding

文本编码最开始使用的是pre-trained char-CNN-RNN，即预训练的字符级卷积循环神经网络，之后发展有用到CA、SI、LSTM、BERT等。
在这里插入图片描述

数据集的使用

Oxford-102 Flowers、CUB-200 Birds、COCO
在这里插入图片描述

思维导图

在这里插入图片描述

下一篇：Text to Image综述阅读（1.2）发展与基本方法 Adversarial Text-to-Image Synthesis: A Review（基于GAN的文本生成图像）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

中杯可乐多加冰 请我喝杯可乐吧，我会多加冰！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。