AttnGAN论文问答

AttnGAN论文问答

(一)作用

  • 在AttnGAN之前有stackGAN、stackGAN++、text-to-image等论文,它们的目的都是为了完成“文本-图像”这一难题,在我们领域中,文本与图像的语义不一致的问题一直难以解决,attngan很好的解决了这一问题

(图一)

我们给计算输入一句话“this bird is red with white and has a very short beak”计算机反馈我们一张具有相应自然语言特征的图片如(图一)这是模型将实现的目标

(二)模型

(图二)这里是引用

问题一:我们的模型简单来说是怎么样的
  • 我们的模型名叫做AttnGAN,首先明确他是一个对抗生成网络,主要是以GAN、CNN、Decnn、LSTM、Attention等机制模块组成的一个复杂网络,模型最简单的模型就是LSTM+CNN,做的事情就是,将一段文本输入LSTM再将LSTM的输出输入CNN网络得到目标图片

  • 简单来说我们的网络由三大模块组成:LSTM网络(Text Encoder),生成器网络(F0,F1…)、判别器网络(D0,D1…)

问题二:模型的输入/输出分别是什么?
  • 我们模型的输入从人的角度来看输入的是句子,输出的是图片
    从计算机的角度来看输入的是向量,输出的是矩阵

(图三)在这里插入图片描述

问题三:模型的具体的结构是什么样的呢?

首先我们来分析网络的结构,具体三种网络

  • 最左边的:LSTM用作对文本进行Encoder有两个输出分别为:
    sente feature: 取LSTM最后一个状态的输出,作用是当作生成器的控制信息
    word feature: 取中间隐藏状态的输出,用来确定图片与句子的一致性

  • 中间橘色框部分的生成器部分:接收的是sent_feature,用作生成具有句子特征的图片,通常是由多个生成器叠加而成在论文中提到通常三个是最佳的,每个生成器中间由:上采样、残差网络、全连接、卷积组成

  • 中间橘色框部分的注意力机制:接收的是生成器输出的h0矩阵以及word_feature矩阵,输出是一个矩阵,作用是做一次注意力机制,详细的注意力会在后面说

  • 下面绿色框部分的判判别器部分:判断图片与句子的相识性,是InceptionV3网络

问题四:模型的具体的细节是什么样的呢?

我们继续看(图三)

  • 我们的sent_feature首先会过一个Fca(Conditioning Augmentation) 它的目的呢是增强信息,通过过一个具有高斯分布的函数,会将句向量中有用的信息保留增、强无关向量的值会相应的变小,增强过后的向量称为FcaFca紧接着会与相同shape的噪音Z进行一个拼接操作并最后输入生成器网络F0得到第一个生成网络的输出h0(具体的生成器网络结构会在后面说)

(公式1)在这里插入图片描述
在这里插入图片描述

  • 随后h0会与Attn模块做注意力机制得到Fattn并与h0做一次拼接并输入F1(F2…F3…F4),后面的生成器2、3、4的做法与此处相同:将生成器的输出与Attn模块做注意力并与本层输出做拼接输入下一层

(公式2)
在这里插入图片描述
在这里插入图片描述

当生成器生成图片之后我们需要做的是判别图片的正确性

  • 我们将生成器出来的图片通过一次卷积得到一张真实的图片,在此之前的图片不是真实的图片

(公式3)
在这里插入图片描述
在这里插入图片描述

  • 最后我们将真实的图片输入值判别器D(这里的判别器的公式并不完整但大体上是这样的我们理解它的意义就行)

(公式4)
在这里插入图片描述
在这里插入图片描述

以上是AttnGAN的整个模型具体细节

问题四:生成器的具体细节是怎么样的?
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值