图像文本生成之用于生成图像描述的深度视觉语义对齐

最新推荐文章于 2024-05-28 21:47:29 发布

Leon嘞

最新推荐文章于 2024-05-28 21:47:29 发布

阅读量2.4k

点赞数 2

分类专栏：图像文本生成文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_43820692/article/details/112859426

版权

图像文本生成专栏收录该内容

1 篇文章

订阅专栏

Deep Visual-Semantic Alignments for Generating Image Descriptions 个人理解

1. 初步介绍

先前工作不足之处：
①预先设定好词汇表，局限性很大
②依赖hard-coded（硬编码：就是把一个本来应该（可以）写到配置信息中的信息直接在程序代码中写死了。），有固定模板，限制多样性，而且过于追求生成句子简单化，作者认为必要性不大。

本文工作：实现了生成图片的密集描述，也就是说对于包含大量内容的图片，本文的模型可以轻松地识别出图片的内容以及自然语言中的表示。此外，模型并不依赖于特定的模板、规则或类别等，而是依赖于训练数据，从数据中学习。
在这里插入图片描述

本文贡献：
①提出了一个深度神经网络模型，可以推测出句子片段和它所描述的图像区域之间的对齐。通过一个共同的多模态嵌入空间和一个结构化目标将两种模态联系起来，并在实验中验证了方法的有效性，且超过了现有的技术。
②介绍了一个多模态RNN结构，获取图像输入，生成他的文本描述，在实验中表明本模型的生成效果要明显优于基线。

2.相关工作

密集图像注释： 前人工作重点是用一组固定的类别来正确标注场景、物体和区域，而本文工作重点是对区域的更丰富、更高层次的描述。
生成描述： 本文采用的RNN模型可以根据先前生成的单词来确定下一个单词的概率分布，而且更简单，但是也存在缺陷。
图像中自然语言的基础： 本文采用的模型将句子中更有意义、更容易理解且长度不固定的连续部分对齐。
视觉和语言域的神经网络： 图像方面：采用CNNs进行图像分类和目标检测；感知方面：采用预处理的词向量来获得词的低维表示；对RNN进行调整。

3.模型介绍

模型总览： 输入一组图片以及图片的描述，将描述语句分成一个个片段，每一个片段都与图片中的一个区域对齐，同时把上述的这种对齐关系也作为第二个多模态训练数据，最后生成片段。
在这里插入图片描述
3.1对齐视觉和语言数据： 找到潜在的对应关系，以实现从图像区域生成这些片段，本文采用了双向RNN来计算句子中的单词表示，允许单词的上下文之间交互。
① 图像表示
在句子描述中，物体和他的属性是频繁出现的，此处采用在ImageNet上预训练的RCNN检测出图像中的目标。并最终将图片转换为一组h维的向量，转换公式如下：
在这里插入图片描述

②句子表示
为了在多模态之间建立联系，本文也把句子中的单词表示在h维的嵌入空间中。如果每个单独的单词分别映射，则没有考虑排序和上下文信息；如果采用词二元模型或依赖树关系，则强加了上下文窗口的最小或最大尺寸。
为了解决这个问题，本文采用了双向递归神经网络（BRNN）来计算每一个单词的表示。BRNN输入N个单词，然后将每一个单词转化为h维的向量，并用上下文信息来丰富每一个单词的含义。具体转换形式如下：
在这里插入图片描述

在对象区域嵌入了一个CNN，单词（通过上下文来丰富）被嵌入在同一个多模态空间中，带有BRNN。相似度采用內积来计算，最后减小到图像-句子分数。

③对象对齐
如果一个句子-图像对的单词在图像中可以找到区域来支撑，那么这个句子-图像对应该有很高的匹配分数，匹配分数定义如下：
在这里插入图片描述
表示只要点积为正，句子片段就与图像区域的子集对齐。

④解码文本段与图像对齐
本文中为了使文本段与图像对齐，将真正的对齐作为马尔科夫场的潜在变量。也就是说给定一句有N个单词的句子和一张有M个边界框的图片，我们为j=1……N分配一个潜在对齐变量a∈{1……M}并且用链式结构表达MRF，公式如下：
在这里插入图片描述
3.2多模态RNN生成描述
在训练多模态RNN期间，输入图片像素I和一组输入向量序列（x1……xt）,然后通过以下的循环关系迭代计算出一组隐藏状态（h1……ht）和一组输出序列（y1……yt）：

RNN训练：

RNN取一个单词，前一步的上下文并且定义句子中下一个单词的分布。RNN在第一步以图像信息为条件，其中START和END是特殊的标志。

4.实验

数据集：Flickr8k、Flickr30k、MSCOCO
数据预处理：将注释的句子转换成小写，丢弃非字母数字字符，将单词过滤到那些在训练集中至少出现5次的单词。
4.1 图片-句子对齐评估
本文通过排序实验来研究推断文本和图像对齐的质量。考虑一组图像和句子，并通过基于图像-句子评分的排序，在给定查询的情况下从另一个模态中检索项目。
在这里插入图片描述
其中R@K表示召回率，越高越好；Med r表示中间等级，越低越好。我们在测试集上评估了模型的表现。
作者分析了自身模型性能优于其他模型的原因：①采用了更为简单的代价函数。②而且BRNN的性能优于依赖树关系，因为依赖关系表明要比单个单词表现得更好，这说明BRNN利用的上下文长度要大于两个单词，而且不依赖提取依赖树而是直接使用原始单词。

在这里插入图片描述
定性分析： 从上图可以看出，本文的模型可以发现比较稀有的物体，比如说：手风琴；而且本模型可以学习调整区域和单词嵌入的大小，对于视觉上有明显区别的单词，他们的嵌入向量也会有更高的维度，反过来对图像-句子的评分产生更大的影响。而对于“now,simply,actually,but”等词语则被映射到原点附近，从而减少了他们的影响。

4.2 框架评估
通过此评估来确保自己的模型足够强大以支持从图像数据到句子单词的映射。此处采用VGGNet来提取图像特征。并采用coco-caption编码计算BLEU，METEOR,CIDEr分数，每一种方法评估生成的句子和五个人手写作为参考的句子有多匹配。
在这里插入图片描述
定性分析： 从上图可以看出后两张图效果并不好，而对于第一张图，虽然训练集里没有出现过，但是却出现了“man in black shirt”和“is playing guitar”多次，如果把出现的这个比例降低的话，生成的句子的效果也会明显降低。

4.3 区域评估
作者通过AMT收集了一组新的数据集，这些数据集进行了区域级的注释，并只在测试时候使用。总共收集了9000个文本段，而且这些区域和注释文本段更为全面，在日常生活中出现的频率并没有那么高。
在这里插入图片描述
4.4 不足之处
① 该模型只能以固定的分辨率生成一段输入像素阵列的描述。更好的方法可能是在生成描述之前对图像多次扫描来找出图像中的物体、他们的相互关系以及更广泛的上下文。
② RNN只通过偏置项作用来接收图像信息，相较于更复杂的多重作用有些不足。
③ 本文的方法由两个独立的模型组成，直接从图像-句子数据集到区域级注释的端到端训练仍然是一个未解决的问题。