1 研究目的
在研究中,作者发现了以下问题:
传统的Txt2Img合成方法在处理复杂的文本描述时,往往难以准确捕捉和表达文本中的关键信息,导致生成的图像与文本描述存在较大的差异。此外,这些方法在生成图像的精细细节方面也存在不足,使得生成的图像质量不高。
为了解决上面的问题,作者提出了以下解决办法:
提出了门控跨词视觉注意力单元(GCAU)。通过引入跨词视觉注意力机制,该方法能够更准确地理解文本描述,并生成与文本内容高度一致的图像。同时,门控细化机制能够进一步优化生成的图像,提高图像的精细度和逼真度。
——首先,输入句子中的每个单词都提供了描述图像内容的不同信息。应考虑图像信息以确定每个单词的重要性,还应考虑单词信息来确定图像每个子区域的重要性。
为此,我们提出了一种跨词视觉注意机制。它通过视觉到单词 (V2W) 注意力专注于相关单词,并通过单词到视觉 (W2V) 注意力专注于相关图像子区域来选择重要的单词。
——其次,如果在图像细化的多个阶段使用相同的词表示,该过程可能会变得无效。
为此,我们提出了一种门控细化机制,基于在多个图像细化阶段更新的图像表示,从更新的单词表示中动态选择重要的单词信息来细化生成的图像。
2 结构框架
基于多级 GAN 的 Txt2Img 合成框架,来构建门控跨词视觉注意力单元。提出的门控跨词视觉注意单元,包含W2V注意、V2W注意和选择门,用于第二阶段和第三阶段。
首先生成低分辨率的初始图像,然后通过几个阶段进行细化,得到最终的高分辨率合成图像。
Vi 和 Wi 分别是视觉特征和单词特征
Fca 表示将句子向量转换为条件向量的条件增强
z ∼ N (0, 1) 是一个随机噪声向量
Fi 表示第 i 阶段的视觉特征转换器
Gi 表示第 i 阶段的生成器
Di 表示第 i 阶段的鉴别器
- 在第一阶段中,输入句子文本经过Bi-LSTM文本编码器对输入文本描述进行编码,得到词特征W1和句子特征s
- 其中句子特征经过Fca将句子特征转换为条件向量的条件增强,然后将得到的Sca
- 再将Sca和噪声z进行结合,送到视觉特征转换器F1中,经过F1得到视觉特征V1
- V1被送到G1中生成一个低分辨率的初始图像,在经过D1鉴别器进行鉴别
- V1还被送到第二阶段中的GCAU中,经过 W2V 和 V2W 两个单元
2.1 W2V注意
- 首先,它通过 1×1 卷积算子 Mv (·) 将视觉特征Vi从 视觉语义空间 转换为 单词语义空间,以获得映射的视觉特征矩阵 ,=
- 然后,计算映射的视觉特征矩阵与词特征矩阵Wi之间的相似度矩阵 。通过计算每个映射的视觉特征向量上的注意力分布,= softmax ()。
- 接下来,根据注意力分布 ,对每个映射的视觉特征向量进行加权求和,得到视觉上下文特征矩阵为
最后,遵循注意力对注意力 (AoA) 方法 的思想,进一步连接视觉上下文特征矩阵和单词特征矩阵,然后应用两个独立的线性变换以连接的结果为条件。
然后使用元素乘法添加另一个注意力,最终获得 W2V 注意力信息 ,
其中 σ(·) 是 sigmoid 激活函数
⊗ 表示逐元素乘法
是线性变换
它突出了每个单词应该关注的视觉子区域,它衡量将在门控细化机制中发送到选择门的单词重要性,以进行重要的单词选择。采用AoA方法获取V2W注意信息。
2.2 V2W注意
遵循与 W2V 类似的过程,如下所示。
- 首先,应用1 × 1卷积算子Mw(·)得到映射的词特征矩阵,
- 然后,计算每个映射词特征向量上的注意力分布,得到归一化注意力分布为
- 接下来,对每个映射的词特征向量进行加权和求和,得到词上下文特征矩阵
- 最后经过线性变换得到注意信息
2.3 门控细化
作者提出了一种选择门来动态选择不同图像细化阶段的重要词特征,它采用了内存写入门的结构。
作者以两种方式对其进行了修改:
首先,使用前一阶段细化的词信息作为输入,而不是DM-GAN中的固定初始词信息。
其次,根据W2V注意信息自适应地组合来自不同视觉子区域的特征,而不是在DM-GAN中平等对待它们。
选择门定义如下:
它输入前面的单词信息和 W2V 注意信息,首先通过线性变换、进行变换,并用Sigmoid激活函数σ(·)进行归一化为
然后,应用选择门从和中选择当前重要的单词信息,它删除要遗忘的过去单词信息,并获得要记忆的注意力信息为
3 评估
3.1 数据集
使用两个公共基准数据集,包括CUB和MS-COCO数据集。
3.2 实施细节
我们使用双向 LSTM 作为文本编码器对输入文本描述进行编码,以获得单词特征和句子特征。
- 在初始阶段生成一个分辨率为64 × 64的图像,然后对其进行细化,生成分辨率为128 × 128和256 × 256的图像。
- Dv 和 Dw 分别设置为 64 和 256。
- Nw 设置为 64,Nv 是每个阶段的生成图像的分辨率,设置为 64 × 64、128 × 128、256 × 256。
- 该模型在 Nvidia GeForce RTX 2080 Ti GPU 上训练。
- 在 CUB 数据集上批量大小设置为 16,在 MS-COCO 数据集上设置为 12。
- 所有模型都使用 ADAM 优化器 、β1 和 β2 进行优化设置为 0.5 和 0.999。
- 生成器和鉴别器的学习率设置为 0.0002。
- 该模型在 CUB 数据集上训练了 800 个 epoch,在 MS-COCO 数据集上训练了 200 个 epoch。
- 对于方程式中的 λ1 和 λ2,在 CUB 数据集和 MS-COCO 数据集上,λ1 设置为 1,在 CUB 数据集上设置为 5,在 MS-COCO 数据集上设置为 50。
3.3 评估指标
有三个指标来评估:IS、FID和R-precision。
IS用于评估生成图像的多样性,IS越高意味着生成的图像的多样性就越多。
FID用于评估生成图像的现实,较低的FID意味着生成的图像更接近真实世界的图像。
R-precision用于评估生成的图像与文本描述的匹配程度,较高的 R 精度意味着生成的图像更好地匹配文本描述。
3.4 实验结果
该表是在CUB和MS-COCO测试集上,与其他方法相比,各种方法的IS性能。
- 在 CUB 数据集上的性能比 TVBi-GAN 和 DF-GAN 差
- 在 MS-COCO 数据集上仅比 SD-GAN差。因为SD-GAN 使用多个文本描述训练模型,但作者的方法仅使用单个文本描述,这可能会导致我们的方法在生成图像多样性方面可能存在限制。此外,如果数据集中的每个图像只包含一个文本描述,SD-GAN将无法训练。并且SDGAN使用连体结构来提取文本语义信息,这比我们的网络更复杂,训练需要更强大的硬件设备。
该表是在CUB和MS-COCO测试集上,与其他方法相比,各种方法的FID性能。
- 在 CUB 数据集上仅比 TVBi-GAN 差
- 在 MS-COCO 数据集上实现了最佳性能。作者的方法在CUB数据集上的性能比TVBiGAN差,但CUB数据集是一个单对象数据集,而MS-COCO数据集是一个多对象数据集,作者的方法在MS-COCO数据集上取得了最好的性能,证明了作者的方法在生成多对象图像时表现更好。
该表是在 CUB 和 MS-COCO 测试集上,与其他方法相比,各种方法的 R 精度性能。
- 在 CUB 数据集上实现了最先进的性能
- 在 MS-COCO 数据集上仅比 Obj-GAN 差。Obj-GAN 使用基于 Fast R-CNN 模型的鉴别器来提供丰富的对象区分信号,这有助于文本描述和图像的语义对齐。这也使网络复杂化。作者的方法不需要额外的网络,性能非常接近。
该图是AttnGAN、DM-GAN和作者的方法生成的图像和地面真实图像的性能比较。左边的四列来自CUB数据集,右边的四列来自MS-COCO数据集。
对于单对象生成和多对象生成,生成的图像的形状更加真实,生成的图像也有更多的细节,如图2(d)中的黑色条纹和白色眉毛和图2(e)中的微波炉。这验证了作者的方法可以生成具有更多细节的更真实的图像。
3.5 消融实验
该方法主要通过集成 W2V attention 和门控细化来改进 V2W attention,这使得 V2W attention 更加关注重要的词。
作者进行了消融研究,以逐步整合各种组件,并基于CUB和MS-COCO数据集使用IS和FID评估模型性能。
如图 3(a) 和图 3(b) 所示,模型在 IS 和 FID 上的性能随着每个组件的集成而逐步提高,这证明了每个组件的有效贡献。
如图 3(c) 所示,作者还通过逐步整合各种组件来展示图像
对于第一个文本描述,生成的对象显然没有正确的形状,并且当仅集成 V2W 注意力时,重要的词“鸟”、“翅膀”和“belly”没有被准确定位和突出显示;在集成固定词特征的写入门后,鸟的形状被突出显示;在集成 W2V 注意力后被准确定位和突出显示;在集成细化词特征的门控细化后,“鸟”、“翅膀”和“belly”对应的图像细节得到了显着增强。
对于第三个文本描述,在集成固定单词特征的写入门后,对象的形状更加真实;在集成 W2V 注意力后,对象的颜色更加准确;在集成了细化单词特征的门控细化后,对象具有最逼真的形状和最准确的颜色。
为了进一步验证提出的 W2V attention 和门控细化如何提高 V2W attention,我们可视化了 V2W attention 关注的前 5 个单词。
如图4(a)所示,在集成W2V注意后,提高了重要词“bird”、“small”和“eyering”的注意力权重,这意味着V2W注意更关注这些重要的词。我们还可以看到,在集成W2V注意后,初始图像中物体的形状可以有效地提高,这是由于W2V注意可以聚焦于图像的相关子区域来选择重要的单词,而不是在写入门中平等对待图像的每个子区域。
如图 4(b) 所示,V2W 注意力在整合门控细化后仍然可以更加关注重要的词“鸟”和“黄色”。此外,提高了重要词“白色”的注意力权重,我们还可以看到最终图像中物体翅膀的细节更丰富,这是由于门控细化可以保留前一阶段选择的重要词信息。
4 优点
- 跨模态交互能力强:该方法通过引入跨词-视觉注意力机制,有效地结合了文本描述和视觉特征,使得生成的图像能够更准确地匹配文本描述。这种跨模态交互能力有助于捕捉文本中的关键信息与视觉特征之间的对应关系,从而生成更符合文本描述的图像。
- 逐步精细化生成:通过后续的生成器逐步精细化图像,该方法能够在保证全局一致性的同时,逐步添加更多的细节信息。这种逐步精细化的生成过程有助于生成高质量、高分辨率的图像。
- 利用全局句子特征作为条件约束:在每个阶段,该方法都将全局句子特征作为条件约束传递给判别器,确保生成的图像与文本描述保持一致。这有助于减少图像与文本之间的不匹配情况,提高生成图像的质量。
5 缺点
- 对文本表示的依赖性强:在某些情况下,如果文本表示不准确或存在歧义,那么生成的图像可能会受到较大影响。此外,如果文本描述中的某些关键信息被忽略或误解,那么生成的图像可能会偏离预期。
- 计算复杂度较高:由于引入了跨词-视觉注意力机制和逐步精细化的生成过程,该方法的计算复杂度相对较高。这可能导致在训练和生成图像时消耗更多的计算资源和时间。
- 阈值设定问题:在某些方法中,如SEGAN,需要设定一个阈值来调整重要单词的注意力权重。然而,确定合适的阈值范围可能是一个挑战,不合适的阈值可能导致重要信息的丢失或无关信息的引入。