《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN

最新推荐文章于 2024-08-07 21:56:36 发布

沐花月

最新推荐文章于 2024-08-07 21:56:36 发布

阅读量220

点赞数

文章标签：生成对抗网络人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/133639647

版权

摘要

问题：即使生成的图像整体上与描述相匹配，单个图像区域或某些部分往往无法识别或与句子中的单词一致。

解决：框架语义空间感知GAN从输入文本合成图像（SSA-GAN），我们引入了一个简单有效的语义空间感知块SSA

(1)学习以文本为条件的语义自适应转换，以有效融合文本特征和图像特征;

(2)以依赖于当前文本图像融合过程的弱监督方式学习语义掩码，以指导空间转换。

1 介绍

本文贡献点：

1.一种新的单阶段框架SSA-GAN，用于从文本合成图像。计算量更少，训练效率更高，更稳定。

2.只使用句子嵌入。方法简单，计算成本更低。

3.引入一种新的SSA块，通过预测语义掩码，有效深度融合文本和图像特征，指导学习后的像素级文本自适应仿射变换。

4.语义掩码预测器以弱监督的方式进行训练，因此不需要额外的注释，并且该块有可能应用于其他T2I数据集

2 相关工作

AttnGAN：利用跨模态注意，在每个细化阶段为图像子区域重复选择文本中的重要词，进行文本-图像融合，以捕获更好的细节。

ControlGAN：进一步将文本和图像信息与单词级空间和通道级注意力驱动生成器融合，在生成过程中生成与最相关单词对应的子区域特征。

DM-GAN：利用记忆网络自适应选择重要的词，迭代细化图像特征

SD-GAN：引入词级条件批处理归一化(CBN)来更好地对齐文本和图像

3 方法

SSA-GAN包括一个文本编码器（text encoder），一个生成器（generater），一个鉴别器（discriminator）。

首先由一个随机整体噪声输入，经过FC层和一次Reshape后，加上句子特征，连接七个SSACN层，生成图片后输入鉴别器进行鉴别。

3.1 文本编码器

一个双向LSTM，通过最小化深度注意多模态相似模型（DAMSM）损失，使用真实图像-文本对进行预训练。

3.2 SSACN

每个SSACN块包括一个上采样块，一个掩码预测器，一个语义空间条件批量规范化（SSCBN）和一个残差块。

3.2.1上采样块

上采样块使用双线性插值将图像特征的宽度和高度加倍。

3.2.2掩码预测器

3.2.3 语义条件批量规范化（SCBN）

BN首先将x标准化为每个特征通道的零平均值和单位偏差：

其就是将参数换成了一个函数，CBN能学习自适应于仿射变换给定条件的调制参数γ和β。

3.2.4 语义空间条件批量规范化

不添加更多的空间信息，则上一步的SCBN将在图像特征图上均匀地工作。

3.3鉴别器

通过两个卷积层将从生成的图像中提取的特征与文本向量连接起来计算对抗损失。

3.4损失函数

4 实验

不同先进方法的IS, FID和R-precision分数的性能，以及我们的方法在CUB和COCO测试集上的性能。

比较了我们的方法和最近三种最先进的T2I GAN模型生成的图像，即DM-GAN [39]， DF-GAN[28]和DAE[24]。

消融实验

提出的SSA块和附加的DAMSM对网络性能的影响

5 结论

1.提出了一种新的语义空间感知GAN (SSA-GAN)框架。

它有一个生成器-鉴别器对，并以端到端方式进行训练。

2.核心模块是语义空间感知(SSA)模块，该模块基于当前生成的图像特征预测语义掩码，并从编码的文本向量中学习仿射参数，实现语义空间条件批处理归一化。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN

本文贡献点：1.一种新的单阶段框架SSA-GAN，用于从文本合成图像。计算量更少，训练效率更高，更稳定。2.只使用句子嵌入。方法简单，计算成本更低。3.引入一种新的SSA块，通过预测语义掩码，有效深度融合文本和图像特征，指导学习后的像素级文本自适应仿射变换。4.语义掩码预测器以弱监督的方式进行训练，因此不需要额外的注释，并且该块有可能应用于其他T2I数据集。
复制链接

扫一扫

沐花月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

140万+: 周排名

25万+: 总排名

3136: 访问

: 等级

203: 积分

4: 粉丝

11: 获赞

11: 评论

12: 收藏

私信

关注

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。