《Unsupervised Image Captioning》2019论文阅读

将image feature作为输出,通过generator和discriminator来生成一个语法正确且通顺的句子,但该句子可能和图像内容无关,利用图像句子之间双向reconstruct来使生成的句子和图像语义相关

Method

给定一张图像,使用image encoder进行编码,得到image feature,将image feature输入到Generator(LSTM)中,基于图像特征和之前生成的单词输出每个单词的概率分布,根据概率分布在词表中进行采样

然后通过Discriminator(LSTM)来判别生成的部分句子是语料库的真实句子还是模型生成的, 生成器试图通过生成尽可能真实的句子来欺骗鉴别器,在每一个时间步,discriminator都会给generator一个reward作为adversarial reward

 

通过上述步骤,可以生成语法无误的句子,但是生成的句子可能和图像内容无关

因此作者提出从视觉概念检测器中蒸馏知识到captioning model

对于一张图像,visual concept detector输出概念和其对应的confidence score集合

 当字幕模型生成的单词对应了输入图像的概念时,将会给生成的单词一个奖励

 

由于概念检测器所检测到的目标概念有限,字幕模型应该更加理解图像中的语义概念,这样可以有更好的泛化能力,因此作者提出将图像和文本映射到一个共同空间中,以便它们可以重构彼此

 

Image reconstruction

作者这里是重构图像特征,而非整个图像

将discriminator作为文本encoder,使用全连接层将discriminator最终的hidden state映射到共同空间中,并将此输出作为reconstructed image feature,通过该步骤可以训练discriminator

 

同时,返回给generator一个image reconstruction reward

Sentence Reconstruction

将上述重构的图像特征作为输入,输入到generator中,再重构回文本特征,该过程类似于句子去噪自编码器,,在句子重构过程中,作者在输入的句子中添加了噪音

 

Generator

 

Discriminator

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值