T2I论文阅读笔记——CPGAN

最新推荐文章于 2024-06-15 14:13:08 发布

芋圆526

最新推荐文章于 2024-06-15 14:13:08 发布

阅读量917

点赞数 1

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/qq_26136211/article/details/115067516

版权

CPGAN是一种用于文本到图像合成的深度学习模型，旨在通过全面解析文本和图像内容来增强语义一致性。模型采用Memory-Attended Text Encoder解析文本，利用Object-Aware Image Encoder理解图像，并借助Fine-Grained Conditional Discriminator促进文本和图像的局部匹配。该方法在COCO数据集上进行了测试，提升了文本与生成图像的语义一致性。

摘要由CSDN通过智能技术生成

CPGAN Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis论文阅读
论文地址：https://link.springer.com/content/pdf/10.1007%2F978-3-030-58548-8.pdf
论文拓展材料地址：https://static-content.springer.com/esm/chp%3A10.1007%2F978-3-030-58548-8_29/MediaObjects/504439_1_En_29_MOESM1_ESM.pdf

介绍

现在的多数方法，比如AttnGAN，StackGAN，都没法正确地将‘sheep’关联到一个羊的图片，也就是他们在解析文本和图片的过程上不够深入。
本论文将通过彻底解析文本和图片的内容，从而建立二者的联系。在文本模式上，我们设计了一个memory机制，对于每个单词，通过捕捉在训练过程中的包含该单词的相关图片的各种视觉内容信息来解析文本内容。在图片模式上，我们使用一种以对象为感知的方法来编码生成图片，从而提取出视觉语义。获得的文本嵌入向量和图片嵌入向量被用来计算文本和图片的语义一致性。此外，我们设计了一个条件discriminator局部建立单词和图片子区域的细粒度关系，来促进文本图片的语义一致性。然后，由得到的模型，也就是Content-Parsing GAN， CPGAN进行full-spectrum内容解析.
我们在COCO上进行了测试。

相关工作

文本合成图像：

在最开始，是使用高计算代价的pixelCNN来完成的，后来用了variational autoencoder(VAE)。但基于VAE生成的图像可能会很模糊。
GAN的出现缓和了这个问题，出名的有StackGAN和AttnGAN。DMGAN引入了memory进一步细化了attention机制。MirrorGAN使用一个text-to-image-to-text的循环结构增进了文本图像一致性。还有一种研究介绍了一个文本和图像的中间变量，用来使二者平滑连接。
为了提高文本和图像的语义一致性，ControlGAN将AttnGAN中介绍的DAMSM用于全部三个discriminator。
不同的是，我们的Fine-Grained Conditional Discriminator（FGCD）提出了一个全新的结构来捕捉每个文字和图像子区域的关系。
最近，SD-GAN提出使用Siamese network来建立两条文本之间的语义一致性，SE-GAN建立的是两张图像之间的。LeicaGAN使用text-visual co-embedding，即可视化特征来代替输入文本。“Dual adversarial inference for text-to-image synthesis”通过学习两个在潜在空间被分离的变量来解析文本。Text-SeGAN提出了一个特定的discriminator来回归文本和图像的语义相关性。CKD使用一个层级的语义表达来解析图片内容，从而提高语义一致性和图像的质量。然后，它们都没有深入解析文本和图像的内容。

Memory机制

Memory网络最初被用来解决循环网络的有限memory上。后来被广泛应用于NLP和CV。我们使用Memory来帮助我们建立一个单词和它相关的可视化特征的语义关系。

最低0.47元/天解锁文章

芋圆526

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
T2I论文阅读笔记——CPGAN

介绍现在的多数方法，比如AttnGAN，StackGAN，都没法正确地将‘sheep’关联到一个羊的图片，也就是他们在解析文本和图片的过程上不够深入。本论文将通过彻底解析文本和图片的内容，从而建立二者的联系。在文本模式上，我们设计了一个memory机制，对于每个单词，通过捕捉在训练过程中的包含该单词的相关图片的各种视觉内容信息来解析文本内容。在图片模式上，我们使用一种以对象为感知的方法来编码生成图片，从而提取出视觉语义。获得的文本嵌入向量和图片嵌入向量被用来计算文本和图片的语义一致性。此外，我们设计了一
复制链接

扫一扫

专栏目录