image caption:Unsupervised image caption

最新推荐文章于 2023-05-14 14:29:35 发布

不一样的等待12305

最新推荐文章于 2023-05-14 14:29:35 发布

阅读量470

点赞数

分类专栏： Image Caption

本文链接：https://blog.csdn.net/qq_39068872/article/details/105196243

版权

Image Caption 专栏收录该内容

2 篇文章

订阅专栏

论文链接：https://arxiv.org/pdf/1811.10787.pdf

文章目录

1. Introduction

本文提出的方法有三个目标：

训练语言模型，根据一个给定的图像特征，生成一个句子，判别器无法判别这是由模型产生的还是在语料库当中，也就是一个对抗生成的过程
为了让1生成的句子符合图片的语义，添加一个目标检测器，当生成的句子中包含检测到的物体给一个奖励。
为了产生的描述比较准确，图像和句子被投射到一个共同的潜在空间。给定一个投影图像特征，我们可以解码一个描述，这可以进一步用于重建图像特征。同样，我们可以将一个句子从语料库编码到潜在的空间特征，然后重建句子。通过对生成的句子进行双向重构，使得生成的句子能够很好地表达图像的语义，进而改进了图像字幕模型。

本文的贡献主要有以下四点：

率先使用了无监督方法来进行image caption
提出了三个训练image captioning model的目标
提出了在无标签数据上的初始化pipeline
在网上爬取了2百万个句子，最终的生成结果效果很好

2. Unsupervised Image Caption

2.1 整体网络结构

在这里插入图片描述
整体来看分三个部分

Image Encoder：一个特征提取的过程
Generator：对应对抗生成网络的生成器，通过输入的图像特征生成描述句子的自然语言。
Discriminator：对应对抗生成网络的判别器，要区分这句话是不是来自语料库，我们目的是让判别器无法判断输入的句子是否来自语料库，并不需要判断这句话是否和图像内容有关。

经过这三步，可以得到一个语句通顺的句子，但是无法判定是否和图片内容有关，于是想了两个办法，目的是生成的句子更加符合图片内容。

2.1.1 Visual Concept Distillation

这部分通过一个目标检测器来检测出图片中的物体，这里成为，当通过generator生成句子的时候，如果包含图中物体对应的单词，那么对这个单词添加一个奖励值，对于一个输入图片 $I$ ，每个物体的特征向量对应一个奖励值 $C=\{(c_1,v_1),\cdots,(c_{N_c},v_{N_c})\}$ ， $N_c$ 代表一共有这些个物体，那么t时刻单词的奖励值为
$r^c_t=\sum\limits_{i=1}^{N_c}I(s_t=c_i)*v_i$

2.1.2 latent space

在这里插入图片描述

Image Reconstruction
作者认为，一幅图片中的语义时很丰富的，如果只利用检测出的物体，会缺失很多图片中的语义，因此，作者提出了这样的做法，
特征向量 $x_{-1}$ ——句子——生成的特征向量 $x^{'}$
也就是说通过句子生成一个特征向量，然后计算损失值 $L_im=||x_{-1}-x^{'}||^2_2$ ，通过计算这个损失值，会让句子尽可生成和 $x_{-1}$ 相同的 $x{'}$ ，也就达到了丰富语义的目的
Sentence Reconstruction
同样的，如图3 (b)所示，鉴别器可以对一个句子进行编码，并将其投射到公共潜在空间中，该潜在空间可以看作是与给定句子相关的一个图像表示。生成器可以根据得到的表示重建句子。这种句子重构过程也可以看作是一个句子去噪的自动编码器。除了在潜在空间中对齐图像和句子外，它还学习了如何从公共空间中的图像表示来解码句子。为了对输入的句子进行可靠、鲁棒的重构，我们在输入的句子中加入了跟随[26]的噪声。将句子重构的目标定义为句子的串句性损失: