SDGAN《Semantics Disentangling for Text-to-Image Generation 》论文解读

最新推荐文章于 2024-03-26 13:17:51 发布

迷途的CH

最新推荐文章于 2024-03-26 13:17:51 发布

阅读量1.4k

点赞数

文章标签： SDGAN text to image GAN

本文链接：https://blog.csdn.net/weixin_43551972/article/details/95588195

版权

SDGAN也是一片text to image 的CVPR2019的文章。

论文地址：[https://arxiv.org/abs/1904.01480v1]
GitHub代码尚未公布

主要创新点：

1.Siamese Structure with Contrastive Losses（带有对比损失的级联结构）：这个损失是建立在判别器端，且与以往不同，是两个树状的结构之间的对比损失。这个结构有利于提取文本描述中的语义共同点（semantic commons）。
2.Semantic-Conditioned Batch Normalization(SCBN)（语义条件下的批度归一化）：有利于提取文本描述中的语义多样性，是对上面的结构的补充。

主要网络结构：

在这里插入图片描述

1.Siamese Structure with Contrastive Losses

在这里插入图片描述
这种结构损失首次提出在论文“Dimension-ality reduction by learning an invariant mapping”中，定义如下：

d = || υ₁ - υ₂||₂ 是两个特征向量υ₁和υ₂之间的距离，这两个向量是分别来自暹罗分支。y是一个标志取0或1,0表示这两个文本描述的是同一张图片，1表示不是描述同一张图片。N是特征向量的维度。ε通常去1.0，来平衡当y=0是生成的两个特征向量之间的距离。
而考虑到当两个生成的图片非常相似时，我们重新定义对比损失如下：
在这里插入图片描述
α 是避免两个描述同一张ground truth的文本生成的图片太接近时取的超参数，一般为0.1。
实际中的对比损失的计算公式是：

2.Semantic-Conditioned Batch Normalization(SCBN)

Batch Norm

在这里插入图片描述
x ∈ R^{N x C x H x W} 是输入。γ，β ∈ R^C是来源于数据的。μ(x),σ(x) ∈ R^C 是均值和标准差。

Conditional Batch Norm

在这里插入图片描述
γ_c,β_c是带有条件c的调制参数。

Semantic-Conditioned Batch Normalization

在这里插入图片描述
1.Sentence-level Cues:

2.Word-level Cues:

W = {w_t}_t=1^T ∈ R^{D x T}是单词特征的集合，w_t表示第t个单词的特征向量。可视化语义特征向量（visual-semantic embedding (VSE)）模型是为了融合单词特征和可视化的特征提出来的，正如图Fig.4(b)所示。我们用一个感知层（如f(w_t)）去将文本的特征和可视化的特征匹配起来。vse_j是在嵌入特征向量 v_j 的基础上来计算算每张图片的第j个区域，而v_j 是 {w_t}_t=1^T的动态表示。
σ(v_j· f(w_t))表明可视化特征层v_j第j个子区域的第t个单词向量w_t的第t个权重。σ(·)是softmax函数。