将image feature作为输出,通过generator和discriminator来生成一个语法正确且通顺的句子,但该句子可能和图像内容无关,利用图像句子之间双向reconstruct来使生成的句子和图像语义相关
Method
给定一张图像,使用image encoder进行编码,得到image feature,将image feature输入到Generator(LSTM)中,基于图像特征和之前生成的单词输出每个单词的概率分布,根据概率分布在词表中进行采样
然后通过Discriminator(LSTM)来判别生成的部分句子是语料库的真实句子还是模型生成的, 生成器试图通过生成尽可能真实的句子来欺骗鉴别器,在每一个时间步,discriminator都会给generator一个reward作为adversarial reward
通过上述步骤,可以生成语法无误的句子,但是生成的句子可能和图像内容无关
因此作者提出从视觉概念检测器中蒸馏知识到captioning model
对于一张图像,visual concept detector输出概念和其对应的confidence score集合
当字幕模型生成的单词对应了输入图像的概念时,将会给生成的单词一个奖励
由于概念检测器所检测到的目标概念有限,字幕模型应该更加理解图像中的语义概念,这样可以有更好的泛化能力,因此作者提出将图像和文本映射到一个共同空间中,以便它们可以重构彼此
Image reconstruction
作者这里是重构图像特征,而非整个图像
将discriminator作为文本encoder,使用全连接层将discriminator最终的hidden state映射到共同空间中,并将此输出作为reconstructed image feature,通过该步骤可以训练discriminator
同时,返回给generator一个image reconstruction reward
Sentence Reconstruction
将上述重构的图像特征作为输入,输入到generator中,再重构回文本特征,该过程类似于句子去噪自编码器,,在句子重构过程中,作者在输入的句子中添加了噪音
Generator
Discriminator