[Image Caption系列(1)] Show attend and tell论文解读

最新推荐文章于 2023-10-25 22:57:03 发布

lhanchao

最新推荐文章于 2023-10-25 22:57:03 发布

阅读量4.7k

点赞数 2

分类专栏： Image Caption 文章标签： Image Caption 深度学习

本文链接：https://blog.csdn.net/lhanchao/article/details/82863476

版权

本文介绍了Show, Attend and Tell论文，这是深度学习在Image Caption领域的经典之作。该论文提出了使用预训练的VGGNet作为编码器，结合Attention机制和LSTM解码器，端到端地生成图像描述。Attention机制通过生成权重来关注图像关键部分，而解码器则基于此生成上下文向量，用于描述图像内容。" 111422893,10294980,Django Model字段类型详解,"['Python', '后端开发', '数据库', 'Django框架']

摘要由CSDN通过智能技术生成

最近在研究关于Image Caption相关的东西，我打算把我看到的关于Image Caption的论文用一个系列介绍一下，本篇是第一篇。
说到近几年深度学习在Image Caption的应用，最经典的也是开山之作的就是Bengio团队在15年发表的Show, Attend and Tell: Neural Image Caption Generation with Visual Attention一文了，本篇介绍的就是这篇论文。
首先介绍一下Image Caption的任务，从任务标题可以看出这个任务是给图像加“字幕”，即描述图像中的内容，这与计算机视觉领域中的核心问题之一——场景理解非常相近，因此对Image Caption的研究比较有价值。早在深度学习兴起以前人们对Image Caption任务就已经开始了探索，以前人们的做法通常是先对图像中的物体进行定位和识别，然后根据语言模型生成句子（具体怎么做的我也不了解，因为现在这种做法已经被抛弃了，所以没有调研过），即使深度学习发展起来后人们还是简单的利用深度神经网络进行定位和识别（文中的Related Works），并没有在方法的架构上进行改进。Show attend and tell一文使用深度神经网络端到端的完成了Image Caption任务，给解决Image Caption任务提供了新的思路，并一直沿用至今。
好了废话不多说了，先看一下这篇论文提出的方法的整体架构：

可以看出整个Caption的生成流程主要分为两个步骤：（1）CNN提取特征；（2）带有Attention机制的RNN解码特征。这种流程又称为Encoder-Decoder模型，该模型最早用于NLP的机器翻译任务中，后面广泛的应用于机器翻译、语音识别以及我们这里的Image Caption任务中。其实总结的来看，这类任务都有一个共性，就是将一种信息的表达形式转换为另外一种信息的表达形式，比如机器翻译是将一种语言翻译（如中文）翻译成另外一种语言（如英文）；语音识别则是将语音信息转换为文本信息；而Image Caption任务则是将图像信息转换为文本信息。因此Encoder-Decoder模型的思想在这些任务中都是通用的。回到论文的内容中，这篇论文首创性的将带有Attention机制的Encoder-Decoder模型引入到Image Caption任务中，其主要部分也就分为编码器、Attention机制和解码器。下面我们来大略介绍一下这三个部分

编码器（Encoder）

说道跟图像或视频相关的深度神经网络大家肯定最先想到CNN，在Image Caption任务中也通常使用CNN作为编码器对图像进行特征提取（即编码为特征）。在Show attend and tell一文中使用的是经过预训练的VGGNet作为编码器提取图像的特征，可以得到一系列的特征向量 $a$ 如下所示：
$a=\{\bm{a_1,...,a_L}\} , \bm{a_i} \in \mathbb{R}^D$
其中 $D$ 维提取的特征图的维度， $\bm{a_i}$ 表示的是最终提取的特征图的一个像素点对应的 $D$ 维特征向量， $L = H * W$ ， $H$ 和 $W$ 分别表示特征图的高度和宽度。

Attention机制

Attention机制跟人眼的注意力机制很像，当我们在观察一个东西的时候，是关注这个东西，视野中其他的部分就会忽略掉，Attention机制做的是生成一组权重，对需要关注的部分给予较高的权重，对不需要关注的部分给予较低的权重。

如图所示，当生成某个特定的单词时，Attention给出的权重较高的部分会在图像中该单词对应的特定区域，即该单词主要是由这片区域对应的特征生成的。在Show,attend and tell一文中介绍了两种Attention方式：hard attention和soft attention。由于hard attention数学推导相对比较复杂而且根据我调研到的结果hard attention应用较少，这里只介绍soft attention。

根据前面的介绍Attention机制的作用就是生成一组权重，这里用