关于图像描述任务中潜在状态形式的重新思考

最新推荐文章于 2024-04-18 10:17:20 发布

binqiang2wang

最新推荐文章于 2024-04-18 10:17:20 发布

阅读量1.2k

点赞数

分类专栏：论文阅读 NLP

本文链接：https://blog.csdn.net/m0_37052320/article/details/85156723

版权

论文阅读同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

NLP

9 篇文章 0 订阅

订阅专栏

英文论文信息
B. Dai, D. Ye, and D. Lin, “Rethinking the Form of Latent States in Image Captioning,” in proceedings of European Conference on Computer Vision, 2018.
摘要：RNN及其变体已被广泛用于图像描述。在RNN中，描述的产生是由一个潜在状态的序列来产生的。现有的图像描述模型通常将潜在状态的形式定义为向量，并将这种做法视为理所当然。我们重新思考这种选择和研究的替代方法，即使用二维映射来编码潜在状态。这是出于对一个问题好奇：潜在状态中的空间结构如何影响描述结果？我们对MSCOCO和Flickr30k的研究发现两个重要的观察结果。首先，具有2D状态的形式通常在字幕中更有效，在参数规模相近的情况下，总是能够实现更高的性能。其次，2D状态保存空间位置的信息。利用这一点，我们在视觉上揭示描述生成过程中的内部动态以及在输入视觉域和输出语言域之间的连接。

一、研究背景
图像描述，为给定图像生成简短描述的任务，近年来受到越来越多的关注。有关此任务的最新工作大多采用编码器-解码器的构架，其中一个递归神经网络（RNN）或其变体之一，例如， GRU和LSTM用于生成描述。具体而言，RNN保持一系列潜在状态。在每一个步骤，它将视觉特征与前一个词一起作为输入，更新潜在状态，然后估计下一个的条件概率字。在这里，潜伏状态作为连接视觉和语言领域之间的枢轴。
遵循语言模型中的标准实践，现有描述模型通常将潜在状态表示为向量和它们之间的连接是完全连接的变换。对于纯粹的语言任务，这是一个自然的选择，但它在视觉领域出现时成为一个问题，例如在图像字幕的任务。
随着深度学习的兴起，卷积神经网络（CNN）已成为许多计算机视觉任务的主导模型。卷积操作具有独特的属性，即空间位置信息，即每个输出元素对应于输入中的局部区域。此属性允许跨层的特征图来保持空间结构。以前很多工作曾证明视觉任务当中空间位置信息的重要性。
图像字幕是一项需要连接语言领域和视觉领域。因此，对于此任务，捕获和保留潜在状态下的视觉内容非常重要。这促使我们探索用于图像描述的替代方式，即使用2D特征图代表潜在状态并通过卷积连接它们。和传统的向量表达方式不同，这种表达方式能够保持空间位置信息。因此，它可以加强视觉结构在图像描述过程中的作用。

二、研究现状
图像描述
图像描述一直是计算机视觉领域一个活跃的研究课题。早期技术主要基于目标检测的结果来生成描述。 Kulkarni等人[1]提出首先检测视觉概念，包括物体和视觉关系，然后通过填写句子模板生成描述。Farhadi等人[2]提出基于检测到的概念从训练数据集当中通过检索来生成给定图像的描述。
近年来，基于神经网络的方法正在不断取得进展。特别是编码器-解码器框架[3]，它使用CNN来编码视觉特征，然后使用LSTM将它们解码为描述。这种框架显示出优于传统技术的效果，并已被广泛采用。沿在这个方向上，已经提出了许多变体，其中Xu等人[4]提出使用动态注意力图来指导解码过程。Yao等人[5]还加入了从图像中检测到的视觉属性，获得进一步改善。尽管先用工作都取得了重大进展，但这些方法依赖于向量来编码视觉特征并代表潜在状态。
多维RNN
旨在将RNN扩展到更高维的现有工作大致分为以下三类：
（1）RNN应用于多维网格，例如2D像素网格，通过沿不同维度的循环连接[6]。这样的扩展已用于图像生成[7]和验证码识别[8]。
（2）RNN单元的潜在状态跨越多个步骤堆叠形成特征图。这个形式通常用于捕获时序的统计信息，例如语言处理和音频处理。在上面提到的两个分类中，潜在状态仍由1D向量表示。因此，它们与本文的工作有本质的区别。
（3）潜在状态本身表示为多维数组。
本文研究的内容属于第三类，其中潜在状态表示为2D特征图。使用2D状态扩展RNN的想法已经在各种视觉问题中进行了探索，例如降雨预测，超分辨率，实例分割和动作识别。值得注意的是，所有这些工作都集中在处理视觉任务，输入和输出都是2D形式。据我们所知，本文是第一个研究图像字幕中具有2D状态的循环网络的工作。本文工作的一个关键贡献是它揭示了2D状态在连接视觉和语言领域方面的重要性。
解释性研究
已经有工作来研究分析循环网络。Karpathy等人[9]试图在自然语言理解的任务当中解释LSTM模型的潜在状态。Ding等人在机器翻译任务当中也进行了类似的研究。然而，这些研究的重点是语言分析，而我们的研究试图通过利用2D状态的空间位置信息找出语言和视觉领域之间的联系。
在理论和实施方面，本文关于2D潜在状态的可视化方法也不同于基于注意力的模型[4]。（1）注意力是一种专门用于指导模型注意力的机制，而2D状态是一种代表形式。（2）注意力通常用一个子网络来实现。在我们的工作中，2D状态本身不会引入任何注意机制。可视化方法主要是为了达到解释的目的，这有助于我们更好地理解内部的动态解码过程。据我们所知，这是第一次用于图像描述。

参考文献
[1] Kulkarni, G., Premraj, V., Ordonez, V., Dhar, S., Li, S., Choi, Y., Berg, A.C., Berg, T.L, “Babytalk: Understanding and Generating Simple Image Descriptions,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 12, 2013.
[2] Farhadi, A., Hejrati, M., Sadeghi, M.A., Young, P., Rashtchian, C., Hockenmaier, J., Forsyth, D, “Every Picture Tells a Story: Generating Sentences From Images,” in proceedings of European Conference on Computer Vision, pp. 15–29, 2010.
[3] Vinyals, O., Toshev, A., Bengio, S., Erhan, D, “Show and Tell: A Neural Image Caption Generator,” in proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 3156–3164, 2015.
[4] Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A.C., Salakhutdinov, R., Zemel, R.S., Bengio, Y, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,” in proceedings of International Conference on Machine Learning, pp. 77–81, 2015.
[5] Yao, T., Pan, Y., Li, Y., Qiu, Z., Mei, T, “Boosting Image Captioning with Attributes,” arXiv preprint arXiv:1611.01646, 2016.
[6] Zuo, Z., Shuai, B.,Wang, G., Liu, X.,Wang, X.,Wang, B., Chen, Y, “Convolutional Recurrent Neural Networks: Learning Spatial Dependencies for Image Representation,” in proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 18–26, 2015.
[7] Wu, Z., Lin, D., Tang, X, “Deep Markov Random Field for Image Modeling,” in proceedings of European Conference on Computer Vision, pp. 295–312, 2016.
[8] Rui, C., Jing, Y., Rong-gui, H., Shu-guang, H, “ A Novel Lstm-rnn Decoding Algorithm in Captcha Recognition,” in proceedings of International Conference Instrumentation, Measurement, Computer, Communication and Control, pp. 766–771, 2013.
[9] Karpathy, A., Johnson, J., Fei-Fei, L, “Visualizing and Understanding Recurrent Networks,” arXiv preprint arXiv:1506.02078, 2015.

三、存在问题
考虑描述生成模型潜在状态的表达形式是一个比较新的问题，也是一种全新的角度。首先，这是一种从两种不同领域根本不同出发点考虑的问题，一个是视觉研究领域，一个是自然语言处理领域，这两者的不同，本身就是二维和一维的区别，本文从这一点出发，单纯直接的考虑使用2D的特征图来进行视觉特征的表达。这样考虑存在的一个问题是，为了两者的匹配，强行将语言映射到了二维，这本身又是不够符合文本表达特性的，关于这一点，在本文中忽视了。
其次就是解释性。利用2D的潜在状态，动态的考虑了在描述生成的过程当中，2D的特征图是如何影响描述的生成过程的。文中提到，这个指导过程不存在主动的注意力机制的过程，是一种视觉特征本身带来的动态变化。存在的问题就是这种自身的动态变化的体现并不明确，就算不使用特征图，单纯将输入图像的部分遮蔽，表达为向量，实验部分依旧可以验证一定的空间位置信息。

四、创新之处
在本文中，作者研究了从循环神经网络的潜在状态的形式的角度来解释描述生成的过程。本文从这个一直被忽视考虑的问题角度出发，联系视觉领域本身研究对象是一个2D空间的事实，提出利用2D的特征图能够更好的表达具有空间位置信息的视觉特征，利用这种视觉特征进行描述生成更符合人类的视觉认知，并且在参数数量相当的情况下，能够取得比传统潜在状态形式（向量表达）更好的效果。
在提出以上问题和技术手段的基础上，作者通过研究表明：
（1）空间结构信息对最终的描述生成任务有很大的影响。在实验中，通过编辑特征图，来产生不同的描述，借此证明空间结构信息对最终结果的影响。
（2）在潜在状态变量当中保持空间结构信息对提高描述结果有帮助。通过实验，在相对公平的条件下，比较两种不同的潜在状态形式对结果的影像，证明2D表达要比向量表达更有效。
（3）使用2D的潜在状态表达能够更容易通过控制变量来进行视觉解释。本文设计了一种简单有效的方式来验证潜在状态表达和视觉区域之间关系。

五、方法概述
我们提出了一种利用特征图来表示描述生成过程当中的潜在状态变量。
本文采用的是目前流行的编码器-解码器框架。首先，使用卷积神经网络对输入图像进行特征提取，然后将提出的特征输入到循环神经网络当中来生成一个单词序列组成句子。在循环神经网络当中，定义一个潜在状态变量，这个变量在每一步作为一个单词的输出前提。在循环神经网络的每一步当中，对潜在状态变量进行映射到单词字典的操作来生成单词。
上述具体过程可以表述如下：首先定义一个全部为0的潜在状态变量，循环神经网络对输入的潜在状态变量进行更新，在此基础上，对潜在状态变量进行映射，最终输出第一个单词。然后发挥循环神经网络的特点，将输出的第一个单词之前的潜在状态变量，作为下一步的循环神经网络的输入，循环神经网络对潜在状态变量进行更新，和第一步操作类似，输出第二个单词。按照上述的操作，循环神经网络通过持续性的对循环神经网络的更新来生成一个单词序列，最终生成一个完整的描述。
本文修改的技术手段上主要由两点。首先是图像特征的表达，利用特征图代替了传统常用方法当中的向量。借此带来的相应的文本表达方面的表达修改是将文本表达从向量改为3D的张量，并将向量的全连接操作改为张量的卷积操作。
在这里插入图片描述

六、实施方案
1、实验环境介绍
无
2、实验数据介绍
本实验主要在两个数据库上进行实验，MSCOCO和Flickr30K.
MSCOCO包含122,585个图像。本文使用112,585个用于训练的图像，5,000个用于验证，剩余的5,000个用于验证测试。
Flickr30K共包含31,783张图像，本文按照如下规则分割数据集，其中有1000个图像分别用于验证和测试，其余的为了训练。
3、工程化流程图（600字）
在这里插入图片描述
主要操作采用的是目前流行的编码器-解码器框架。首先，使用卷积神经网络对输入图像进行特征提取，然后将提出的特征输入到循环神经网络当中来生成一个单词序列组成句子。在循环神经网络当中，定义一个潜在状态变量，这个变量在每一步作为一个单词的输出前提。在循环神经网络的每一步当中，对潜在状态变量进行映射到单词字典的操作来生成单词。
上述具体过程可以表述如下：首先定义一个全部为0的潜在状态变量，循环神经网络对输入的潜在状态变量进行更新，在此基础上，对潜在状态变量进行映射，最终输出第一个单词。然后发挥循环神经网络的特点，将输出的第一个单词之前的潜在状态变量，作为下一步的循环神经网络的输入，循环神经网络对潜在状态变量进行更新，和第一步操作类似，输出第二个单词。按照上述的操作，循环神经网络通过持续性的对循环神经网络的更新来生成一个单词序列，最终生成一个完整的描述。
本文修改的技术手段上主要由两点。首先是图像特征的表达，利用特征图代替了传统常用方法当中的向量。借此带来的相应的文本表达方面的表达修改是将文本表达从向量改为3D的张量，并将向量的全连接操作改为张量的卷积操作。
4、具体的研究路线（1500字）
本文通过具体的实验主要研究以下三点：
（1）空间结构信息对最终的描述生成任务有很大的影响。在实验中，通过编辑特征图，来产生不同的描述，借此证明空间结构信息对最终结果的影响。
循环神经网络在每一步当中输出单词之前，需要将当前步骤输出的特征图通过池化操作来将特征图变成向量，然后再经过一个全连接层的映射来生成一个单词。这一步实验的具体操作是对特征图进行区域选择。因为特征图当中的每一个像素点对应原始输入图像当中的一个区域，通过简单的选择操作，我们可以选择将一部分区域的特征图选择出来，然后经过池化操作输入循环神经网络。如下图所示，第一张图下方的三句话，分别对应选择特征图的左边区域，选择特征图的右边区域选择整个特征图作为输入来产生句子。可以发现，第一句话只能捕捉到左边的狗并且忽略了右边的背包，第二句话能够捕捉到右边的背包忽略了狗，第三句话准确捕捉了狗和背包两个物体。
在这里插入图片描述
（2）在潜在状态变量当中保持空间结构信息对提高描述结果有帮助。通过实验，在相对公平的条件下，比较两种不同的潜在状态形式对结果的影像，证明2D表达要比向量表达更有效。
为了表明空间的结构，本文设计了实验，通过激活图来观察生成过程中每一步的区域。这里的每一个区域使用的是不同通道来表示。如下图所示，这里抽取的是通道方向的一个通道，然后利用这个通道的对应权重来生成激活图。
在这里插入图片描述
不同的通道对应不同的概念，下方图表示的对应相同的图，因为输入的特征通道不同，生成过程的激活图是不一样的。

（3）使用2D的潜在状态表达能够更容易通过控制变量来进行视觉解释。本文设计了一种简单有效的方式来验证潜在状态表达和视觉区域之间关系。
为了表达视觉和潜在状态变量表达之间的关系。作者提出，特征图的不同通道对应不同的语义概念。通过实验，作者给出了如下的展示。
在这里插入图片描述
为了进一步的验证上述的联系，作者基于描述生成做了实验：通过屏蔽（置零）对应通道的操作来观察生成的描述，看是否在生成的描述当中屏蔽了相应的概念。如下图所示，如果输入整个特征图，是能够捕捉到鸟这个物体的。如果屏蔽了鸟这个概念对应的通道，生成的句子当中就没有鸟了，借此，验证了上述陈列的关系。
在这里插入图片描述

七、方向展望
在本文中，我们研究了嵌入潜在状态作为2D多通道的特征图对图像描述的组合。相比标准方式将潜在状态作为一维向量嵌入的实践，二维状态在不同的环境中实现一致表现出更好的生成效果。这种表达还保留潜在状态的空间信息，这有助于揭示解码过程的内部动态，并解释视觉和语言领域的联系。我们计划将具有2D的解码器与描述生成领域中常用的其他模块组合进行进一步研究探索，包括注意力机制。