Photographic Text-to-image Synthesis with a Hierarchically-nest Adversarial Networks使用层级对抗网络使得文字生成超逼

最新推荐文章于 2020-10-04 13:51:45 发布

爱视觉

最新推荐文章于 2020-10-04 13:51:45 发布

阅读量337

点赞数 1

分类专栏：论文阅读文章标签： text to image 文字生成图像层级网络架构

本文链接：https://blog.csdn.net/ningning52107/article/details/80223450

版权

该论文提出了一种基于层级对抗网络的文本到图像合成方法，解决了StackGan的图文不匹配问题。通过设计的金字塔结构和多尺度判别器，生成的图像在不同层次上保持了颜色、结构和风格的一致性。此外，采用全局和局部对抗损失来确保文字与图像的匹配，同时采用文字增强策略提高生成质量。

摘要由CSDN通过智能技术生成

这篇论文解决了StackGan端到端的问题，stackGan是分层训练的，而本文的网络结构是一个金字塔结构的，且解决了StackGan中文字图片不匹配的问题，他使用了文字与图片匹配对，他与StackGan没有太大差距，都是为了生成清晰的图片使用了层级的结构，但是本篇论文为自己的金字塔层级结构设计了合理的生成和判别器以及对应的loss。目测与stackGan++有相似之处。

暂时不知道是几层，– scale {64,128,256}–但随着分辨率的增加，但应该会花很长时间训练。
接下来，就看看如何做的。

这张图总结了几个常见的用于提升图像的分辨率的GAN结构
感觉受益了，A的代表作品是StackGan，将第一个Gan生成的图片作为stage2的辅助输入。B代表是NIPS中的Dual Discriminator Generative Adversarial Nets，使用多判别器来判别图像生成效果，C是progressive growing of GANs for improved quality。发现A与C是相似的，1和n stage 的差距。然后D，结构确实不错，从图中观察的话，是明显的。下面具体讲一下结构。