【Image caption】——Unsupervised Image Captioning(CVPR2019)

目录

一、贡献

1.主要思想

2. 现有研究方法对比

二、实现过程

1.无监督模型架构

 2.模型流程

3.模型构成

4. 训练过程

5. 初始化

 三、实验结果及示例

 四、结论


一、贡献

  • 我们首次尝试在不依赖任何标记的图像对的情况下进行无监督的图像字幕。
  • 我们提出了三个目标来训练图像字幕模型。
  • 我们提出了一种新的模型初始化管道。通过利用视觉概念检测器,我们为每个图像生成一个伪标题,并使用伪图像-句子对初始化图像字幕模型。
  • 我们从Web中抓取了一个由超过200万个句子组成的大规模图像描述语料库,用于无监督的图像字幕任务。我们的实验结果证明了我们提出的模型在产生相当有前途的图像字幕方面的有效性。

1.主要思想

       深度神经网络在Image Caption任务上取得了巨大的成功。然而,现有的大多数模型严重依赖于成对的图像-句子数据集,这些数据集的获取成本非常高。      

       在本文中,我们首次尝试以无监督的方式训练一个图像字幕模型。我们所提出的模型不依赖于人工的图像-句子对,而仅仅需要一个图像集、一个句子语料库和一个视觉概念检测器。

      (1)句子语料库:用于指导Image Caption模型如何生成合理的句子。    

         鉴于现有的句子语料库主要是为语言研究而设计的,因此很少涉及图像内容,我们抓取了200万个描述图像的自然句子,以方便无监督Image Caption场景。

     (2)视觉概念检测器中的知识将被提炼到captioning model中,引导模型识别图像中的视觉概念。  

        为了进一步促进生成的句子与图像在语义上的一致性,将图像和字幕投射到一个共同的潜在空间中,使它们能够相互重构。

2. 现有研究方法对比

       如果将图像作为源语言,那么无监督图像描述任务在本质上与无监督机器翻译相似。    

      在无监督机器翻译方法中,源语言和目标语言被映射到一个共同的潜在空间中,使得不同语言中具有相同语义意义的句子能够很好的对齐,从而可以进行后续的翻译。然而,无监督图像描述任务更具挑战性,因为图像和句子处于两种显著不同的模式中。

二、实现过程

1.无监督模型架构 

 2.模型流程

(1)图像编码器CNN:将给定的图像编码生成一个特征表示,基于还特征表示,生成器输出一个句子来描述图像;

(2)鉴别器:用于区分标题是由模型生成的还是由句子语料库生成的;

(3)生成器和鉴别器:以不同的顺序耦合来执行图像和句子重建。

3.模型构成

       模型构成:图像编码器CNN、句子生成器LSTM、鉴别器LSTM;  

(1)图像编码器将给定图像编码成一个特征表示:  

(2)基于该特征表示,生成器输出一个句子来描述图像:  

 (3)鉴别器用于区分一个句子时由模型生成的还是来自句子语料库:

4. 训练过程

处理流程:图像->【图像编码器】->图像特征->【句子生成器】->图像描述句(生成器计算对抗奖励)->【鉴别器】->判断句子出处(判别器计算对抗损失)      

       在本文中,我们首次尝试训练没有任何标记的图像-句子对的图像字幕模型。提出了三个关键目标,使无监督训练成为可能。

4.1 对抗的caption生成

     首先,我们希望模型生成的句子是流畅自然的,要可以骗过人类读者,这种目标通常是通过在句子语料库上训练语言模型来实现的。    

      该句子生成器以图像特征为输入,生成一个句子。    

      鉴别器分辨句子是由模型生成的还是语料库里一个真实的句子。

      生成器试图通过生成尽可能真实的句子来欺骗鉴别器。为了实现这一目标,我们在每一个时间步给生成器一个奖励,并把这个奖励命名为对抗奖励。    

       通过最大限度地增加对抗性奖励,生成器逐渐学会了生成接近于真实的句子。 对于鉴别器,其对应的对抗损失定义为:

4.2 视觉概念提炼    

        对抗性奖励只会鼓励模型根据语法规则生成可信的句子,这些句子可能与输入图像无关。

       为了生成相关的图像描述,模型必须学会识别图像中的视觉概念,并将这些概念融入到生成的句子中。    

       因此,我们提出将现有的视觉概念检测器的知识提取到图像描述模型中。 具体来说,当模型生成一个词,其对应的视觉概念被检测到存在输入图像中时,我们对生成的词进行奖励。这种奖励被称为概念奖励,其奖励值由该视觉概念的信心分数(confidence score)表示。

4.3 图像-句子双向重建      

        通过对抗性训练和概念奖励,生成的句子质量很大程度上取决于视觉概念检测器,因为它是图像和句子之间唯一的桥梁。 然而,现有的视觉概念检测器只能可靠地检测有限数量的对象概念。图像描述模型需要理解更多的图像语义概念,具有更好的泛化能力。 为了实现这一目标,我们将图像和句子投射到一个共同的潜在空间中,这样它们就可以互相重建,使生成的标题将在语义上与图像一致。

       图a,生成器根据图像特征生成一个句子,句子标题应该包含图像的要点。接着,我们从生成的句子中重建图像,这样可以使生成的字幕在语义上与图像保持一致。 然而,这样做的一个障碍在于,使用当前的技术很难生成包含复杂对象(如人)的高分辨率图像。因此,在本文中,我们转向重建图像的特征,而不是完整的图像。 如图3 (a)所示,鉴别器可以看作是一个句子编码器。在鉴别器上叠加一个全连通层,将最后一个隐藏状态 h 投射到图像和句子的公共潜空间,公式如下:

 其中x’可以进一步看作是从生成的句子中重构出来的图像特征。因此,我们定义一个额外的图像重建损失来训练鉴别器:    

可以看出,生成器与鉴别器共同构成了图像重建过程。因此,定义生成器的图像重建奖励为:(与负重建误差成正比)  

        图b,鉴别器可以对一个句子进行编码,并将其投射到公共潜在空间中,该潜在空间可以看作是与给定句子相关的一个图像表示。生成器可以根据得到的表示重建句子。 这种句子重构过程也可以看作是一个句子去噪的自动编码器。除了在潜在空间中对齐图像和句子外,它还学习了如何从公共空间中的图像表示来解码句子。为了使输入句可以进行可靠、鲁棒的重构,我们在输入的句子中加入了噪声。将句子重构的目标定义为交叉熵损失:

 4.4 集成    

       以上三个目标用作联合训练我们的模型。 对于生成器,由于单词采样操作是不可微的,我们使用policy gradient训练生成器,该联合奖励包括对抗奖励、概念奖励和图像重建奖励。 除了政策梯度估计的梯度外,句子重构损失还提供了梯度. 更具体地说,联合奖励包括对抗奖励、概念奖励和图像重建奖励。此外,句子重构损失还通过反向传播为生成器提供了梯度。这两种类型的梯度都被用来更新生成器。θ表示生成器的可训练参数。梯度对θ是由:

     对于鉴别器来说,对抗和图像重构的loss结合起来共同更新鉴别器参数:

     在训练阶段,生成器和鉴别器交替更新。

5. 初始化

      为克服从零开始训练的困难,我们提出一个初始化管道来预训练生成器和鉴别器。

(1)首先以句子中的概念词作为输入,并仅使用句子语料库训练一个概念到句子的模型;

(2)使用视觉概念检测器识别图像中存在的视觉概念;

(3)将这两部分集成在一起,我们能够为每个训练图像生成一个伪标题;  

      利用伪图像-句子对以标准监督的方式训练字幕生成模型;

 三、实验结果及示例

(1)实验示例:

 (2)评价指标:

 四、结论

     本文首次尝试无监督的图像描述任务,提出了三个训练目标:

(1)使生成的caption与语料库中的句子难以区分;

(2)使image caption模型传递图像中的对象信息;

(3)使图像特征与句子特征在共同的潜在空间中对齐,进行双向重构。    

      我们也从Shutterstock中进一步收集了一个包含200多万个句子的大型图像描述语料库,以促进无监督的image caption方法。实验结果表明,该方法在不使用任何标记的图像-句子对的情况下,都能得到很好的结果。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值