AttnGAN论文问答

最新推荐文章于 2023-06-29 16:34:08 发布

liees

最新推荐文章于 2023-06-29 16:34:08 发布

阅读量1.6k

点赞数 3

本文链接：https://blog.csdn.net/lijun9719/article/details/104368126

版权

2 篇文章 0 订阅

订阅专栏

在AttnGAN之前有stackGAN、stackGAN++、text-to-image等论文，它们的目的都是为了完成“文本-图像”这一难题，在我们领域中，文本与图像的语义不一致的问题一直难以解决，attngan很好的解决了这一问题

（图一）

我们给计算输入一句话“this bird is red with white and has a very short beak”计算机反馈我们一张具有相应自然语言特征的图片如(图一)这是模型将实现的目标

（图二）

我们的模型名叫做AttnGAN，首先明确他是一个对抗生成网络，主要是以GAN、CNN、Decnn、LSTM、Attention等机制模块组成的一个复杂网络，模型最简单的模型就是LSTM+CNN，做的事情就是，将一段文本输入LSTM再将LSTM的输出输入CNN网络得到目标图片
简单来说我们的网络由三大模块组成：LSTM网络（Text Encoder），生成器网络（F0，F1…）、判别器网络(D0,D1…)

（图三）

首先我们来分析网络的结构，具体三种网络

最左边的：LSTM用作对文本进行Encoder有两个输出分别为：
sente feature： 取LSTM最后一个状态的输出，作用是当作生成器的控制信息
word feature： 取中间隐藏状态的输出，用来确定图片与句子的一致性
中间橘色框部分的生成器部分：接收的是sent_feature，用作生成具有句子特征的图片，通常是由多个生成器叠加而成在论文中提到通常三个是最佳的，每个生成器中间由：上采样、残差网络、全连接、卷积组成
中间橘色框部分的注意力机制：接收的是生成器输出的h0矩阵以及word_feature矩阵，输出是一个矩阵，作用是做一次注意力机制，详细的注意力会在后面说
下面绿色框部分的判判别器部分：判断图片与句子的相识性，是InceptionV3网络

我们继续看（图三）

我们的sent_feature首先会过一个Fca(Conditioning Augmentation) 它的目的呢是增强信息，通过过一个具有高斯分布的函数，会将句向量中有用的信息保留增、强无关向量的值会相应的变小，增强过后的向量称为Fca，Fca紧接着会与相同shape的噪音Z进行一个拼接操作并最后输入生成器网络F0得到第一个生成网络的输出h0(具体的生成器网络结构会在后面说)

(公式1）

随后h0会与Attn模块做注意力机制得到Fattn并与h0做一次拼接并输入F1（F2…F3…F4）,后面的生成器2、3、4的做法与此处相同：将生成器的输出与Attn模块做注意力并与本层输出做拼接输入下一层

(公式2)

当生成器生成图片之后我们需要做的是判别图片的正确性

（公式3）

（公式4）

以上是AttnGAN的整个模型具体细节

关注