Gated cross word-visual attention-driven generative adversarial networks for text-to-image synthesis

本文链接：https://blog.csdn.net/qq_41833478/article/details/138067256

本文提出了一种新的文本到图像合成方法，通过门控跨词视觉注意力单元和细化机制，解决了传统方法在处理复杂文本和图像细节上的问题。实验结果表明，新方法在COCO和CUB数据集上在多样性和现实性方面有所提升，且能生成更符合文本描述的高分辨率图像。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 研究目的

在研究中，作者发现了以下问题：

传统的Txt2Img合成方法在处理复杂的文本描述时，往往难以准确捕捉和表达文本中的关键信息，导致生成的图像与文本描述存在较大的差异。此外，这些方法在生成图像的精细细节方面也存在不足，使得生成的图像质量不高。

为了解决上面的问题，作者提出了以下解决办法：

提出了门控跨词视觉注意力单元（GCAU）。通过引入跨词视觉注意力机制，该方法能够更准确地理解文本描述，并生成与文本内容高度一致的图像。同时，门控细化机制能够进一步优化生成的图像，提高图像的精细度和逼真度。

——首先，输入句子中的每个单词都提供了描述图像内容的不同信息。应考虑图像信息以确定每个单词的重要性，还应考虑单词信息来确定图像每个子区域的重要性。

为此，我们提出了一种跨词视觉注意机制。它通过视觉到单词 (V2W) 注意力专注于相关单词，并通过单词到视觉 (W2V) 注意力专注于相关图像子区域来选择重要的单词。

——其次，如果在图像细化的多个阶段使用相同的词表示，该过程可能会变得无效。

为此，我们提出了一种门控细化机制，基于在多个图像细化阶段更新的图像表示，从更新的单词表示中动态选择重要的单词信息来细化生成的图像。