跨媒体理解与检索-CSDN博客

“诗画合一”的跨媒体理解与检索

2018年03月06日 00:00:00

阅读数：101

编者按：王维的千古名句“大漠孤烟直，长河落日圆”，展现了其将诗画浑然一体的创作功底。苏轼更是曾以一题跋来评价王维的《蓝田烟雨图》：

味摩诘之诗，诗中有画；

观摩诘之画，画中有诗。

《蓝田烟雨图》虽已失传，“诗中有画、画中有诗”，却流传了下来，并代表了古代跨媒体理解领域，文本与图像之间映射关系的最高水平。

古人在品诗赏画时，是通过脑中的神经网络来寻找诗与画之间的联系，而在现代计算机世界中，由于媒体类型更加多元化，在文本、图像之外，还增加了声音、视频等融合了时序信息的数据，因此，更需要一种有效的手段来实现跨媒体的理解与检索。

今天，来自电子科技大学的申恒涛教授，将为大家讲述，如何在多个领域数据源之间，实现“诗画合一”。

文末，大讲堂特别提供文中提到所有文章的下载链接。

在多媒体大数据的背景下，我们迎接着挑战，也邂逅着机遇。纵观互联网的发展，从90年代的门户网站时代，到二十一世纪之初的搜索引擎时代、社交网络时代，直至当下的移动大媒体时代，多媒体智能计算研究被赋予了越来越大的科学、社会和商业价值。

我们未来媒体研究中心的定位是“多媒体大数据+人工智能”，用人工智能的技术分析处理多媒体大数据。

本次报告在对跨媒体研究总体介绍之后，将详细介绍video captioning和adversarial modality classifier的相关研究。

目前比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。由于互联网的全面普及，多媒体大数据具备体量大、来源丰富、类型多样等特点，比如：

每一分钟，苹果用户下载大约51,000个应用程序，Skype用户拨打110,040个网络电话，Facebook用户要完成4,166,667个赞，YOUTUBE用户上传300小时的视频，Instagram用户对1736111张图片点赞，PINTEREST用户分享9722张图片。这意味着有海量的多媒体数据在源源不断地产生着，如果这些数据能够被充分地利用起来，将整体提高目前的人工智能水平，而如果使用不当，将影响公共安全。因此，多媒体大数据除了具备广泛的应用场景之外，还关乎国家经济、乃至社会安全。

那么如何充分利用多媒体数据呢？因此衍生出了一个重要的研究方向：跨媒体研究，包括跨媒体理解、跨媒体检索以及时空大数据搜索等。而跨媒体研究的本质，主要是挖掘不同模态媒体数据之间的联系，以完成模态之间的迁移。

以机器人为例，一个机器人在运作的过程中，使用了视觉数据、语音数据以及传感器数据，而正是这些不同类型数据的协同，才赋予了机器人拟人化的能力。

而互联网上对同一个事件的描述，则会有不同来源的多种媒体数据。如图所示，对纽约飓风Sandy的事件描述，涵盖了视频数据、图像数据以及文本数据。

因此，跨媒体计算成为了AI 2.0时代的核心理论之一。

跨媒体理解：video captioning

Video captioning是一种使用自然通顺的语言对视频进行描述，从而表达视频内容的技术。如上图所示。

其具备广泛的应用场景：

在医疗界，通过充分利用不同模态的信息并从中受益，可以用来帮助各种行为能力受限的人；
在工业界，不同模态数据的协同，可应用于无人系统，包括机器人、无人机、自动驾驶等；
在教育界，可应用于教育领域的辅助学习；
在新闻界，多种数据源信息的描述，还可提高新闻的可理解性；
在安全领域，由于安防数据的多样性，跨媒体研究将有助于对不同模态安防数据的全面分析，或可助力公共安全。

现有的跨媒体研究工作的关键在于：对视频的视觉特征进行有效的编码提取，并解码输出成语句。

标准的神经网络皆是有向非循环图结构，采用拓扑顺序来进行前向传播、以及梯度反向传播，且单次只能有一个输入样例。

而循环神经网络引入了循环和时间概念，通过延迟的方式，解决了标准神经网络单次只能处理单条数据的问题，能够对多条数据序列同时进行处理。

相关工作还有:

1）以Vanilla Neural Networks为例的一对一神经网络;

2）以Image Captioning为例的一对多神经网络，被用于从图像生成单词序列;

3）以sentiment Classification为例的多对一神经网络，被用于从单词序列生成Sentiment;

4）以机器翻译为例的多对多网络，被用于从单词序列生成单词序列;

5）以及，以frame level的视频分类为例的多对多网络。

而video captioning领域的基础模型是ICCV 2015上的“Sequence to sequence-video to text”，是基于多对多的多层RNN网络来构建的。为了将视频中的事件解码为描述该事件的语句，这篇文章提出了一种双层LSTM方法，来学习如何表达视频帧序列。其中，上层LSTM(图中红色)用来建模输入视频序列的视觉特征，第二层LSTM(图中绿色)从文本输入以及视频序列的隐性特征，来建模最终的表达语言。图中<BOS>表示语句的开头，<EOS>表示句末的标签，<pad>表示该时间戳上输入为空。该模型可以同时学习视频帧的时序结构和生成语句的序列模型。

而在ICCV2015上的“Describing videos by exploiting temporal structure”，则为video captioning引入了注意力机制。在解码器中，通过采用动态的权重（也称为注意力权重），来对时序特征进行变换，然后利用变换后的特征和之前生成的单词来生成当前时刻的单词。其中，注意力权重反映了视频片段中每一帧的特征与上一时刻生成单词间的关联度。

如上图所示，通过对视频序列进行编码后，我们得到V(1), V(2), …, V(n)时序特征，根据解码器之前的状态及每一帧的特征V(i)，获取到每一帧在当前时刻t时的注意力权重，然后采用为注意力权重加权的方式，对时序特征进行变换，最后根据这个特征和之前的状态来生成当前时刻的单词。

大多数现有的方法中，解码器为生成的所有单词都应用注意力机制，包括non-visual words（如“the”、“a”）。然而，事实上，对这些non-visual words使用自然语言模型已经能够很好地进行预测，为其强加注意力机制反而会误导解码器、并降低video captioning的整体性能。

针对这一问题，我们提出了一种层级LSTM框架（hLSTMat），它带有可调节功能的时间注意力机制，通过注意力机制选取一些特定的帧，并利用层级的LSTM来建模视频帧的低层视觉信息和高层语境信息，然后根据可调节的时间注意力机制，来选择解码是依赖于视觉信息还是语境信息。

我们针对visual words和non-visual words，提出了一种统一的编码-解码框架：

1) 针对有实际意义的单词，从一系列特定视频帧中提取视觉信息，例如，shooting是从橘色的视频帧中生成的。

2) 而针对non-visual words，我们仍旧依赖于语言模型。

首先介绍CNN编码器：

这里使用ResNet-152模型来提取frame-level的特征，同样也可以使用其他CNN模型。

接下来我们介绍RNN解码器：其中包含两层LSTM、两种Attention以及一层MLP。如图中下部分所示：

1) 底层的LSTM可以高效地解码视觉特征；

2) 顶层的LSTM则主要挖掘语境信息；

3) 时间注意力机制(图中Attend)用于引导关注哪些重要的帧；

4) 可调节的时间注意力机制（图中Adjusted）用于决定采用视觉信息还是语境信息；

5) MLP层则用于最终的单词的预测。

底层LSTM

它用来捕捉低层视觉特征。在该层中，时刻t的状态h_t、m_t根据当前的词语的特征y_t、前一时刻的隐含状态h_(t-1)和前一时刻的记忆m_(t-1)进行更新。初始状态为h_0、m_0。整个更新过程用公式表示为：

其中W^ih和W^ic是该层需要学习的参数，Mean(∙)表示对给定的视频段特征集{V_i}进行平均池化的操作。

时间注意力机制层

用来引导关注哪些重要的帧，捕捉关注的视觉特征。在时刻t中，我们采用动态的权值对时序特征进行求和，得到的特征用来表示每个时刻下视频段的视觉特征。根据视频段特征V（V={V_i}）及底层LSTM时刻t的隐含状态h_t，经由单层神经网络获取到未归一化的关联分数ε_t，并采用softmax函数来得到最终的动态权值。整个权值获取的过程用公式可表示为：

其中，W^T、W_a、U_a和b_a是需要学习的参数。

顶层LSTM

主要挖掘语境信息，捕捉视频段的高层语义特征。在该层中，时刻t的状态¯h_t、¯m_t根据底层LSTM的隐含状态h_t、前一时刻的隐含状态¯h_(t-1)和前一时刻的记忆¯m_(t-1)进行更新。同样地，整个更新过程用公式表示为：

可调节的时间注意力机制层

用来决定采用视觉信息还是语境信息进行最后的单词生成。在该层中，通过添加校正门β_t来控制选取不同信息进行视觉单词和非视觉单词的预测。整个过程用公式表示如下：

其中，W_s是需要学习的参数。

MLP层

用来输出单词预测的概率，获取最终生成的单词。具体公式如下：

我们在MSVD数据集和MSR-VTT数据集上进行了测试，其中，MSVD数据集涵盖1970个视频序列，80,000个“视频-文本”描述对，我们将这1970个视频序列分为训练集（1200）、验证集（1000）、测试集（670）三组。MSR-VTT数据集包含10,000个网络视频序列，且每一段视频都有大约20句自然语句标注，共计200,000个“视频-文本”描述对。

我们对编码器尝试了不同的网络，并使用BLEU和METEOR两个衡量指标对MSVD数据集进行测试，实验表明，在使用ResNet-152编码网络时，其性能最好。

我们对模型也进行了对比，在MSVD dataset数据集上，使用ResNet-152网络进行测试，实验结果表明，hLSTMat和hLSTMt优于当时性能最好的SA和MP-LSTM，且hLSTMat优于hLSTMt，可以看出可调节的注意力机制能够提高video captioning的性能。

我们在MSVD数据集上和其他方法进行了对比，其中一些方法之使用了单一深度网络来生成视频特征，而其他一些（如S2VT,LSTM-E和p-RNN）则混合了多种网络产生的特征，当使用静态帧级特征时，我们得出如下结论：

1）相对于只提取空间信息的p-RNN，我们的方法在B@4评价标准上有8.7%的提升，在METEOR上有2.5%的提升；

2） HRNE的层级结构减小了输入流的长度，并能够在更高层次上组合多种连续输入，提高了网络的学习能力，并使得模型能够编码更丰富的多粒度时间信息，实验表明我们的方法明显优于HRNE和HRNE-SA。

3）表中的VGGNet（V）和GoogleNet(G)主要生成空间信息，而光流(O)和C3D(C)主要捕捉时间信息，从组合实验可以看出，将时间和空间信息结合考虑，能够提升网络的整体video captioning性能。

如图是在MSR-VTT数据集上的对比实验，结果也表明我们的方法取得了state-of-the-arts的性能。

上图展示了针对MSVD数据集中的人物、动物、场景描述效果，将我们的方法与groundtruth进行了对比。

跨媒体检索：adversarial modality classifier

网络上充斥着来自不同数据源的多模态多媒体数据；因此，亟需能够适应各种模态的信息检索系统，例如，在搜索“Dunkirk”电影时，应返回影评的相关文本数据、包含相关视频片段的视频数据、以及相关音频数据；而跨媒体检索指的是：给定一个模态的输入，来查找其他模态中与之最相近的匹配结果。

以上图中两个例子来说明跨媒体检索，如Text2Img和Img2Text。

不同模态之间的数据及模型具备异质性，由图中特征空间的分布结果可以看出，图像和文本数据的特征表达具有本质性的差异，因而无法直接度量它们之间的相似度。

因此，常见的方法是公共子空间学习，为不同模态学习具有代表性的特征表示，同时，建模相同数据在不同模态之间的相关性。例如，图中以文本数据和视觉数据中的四种动物为例，寻找不同数据类型的同一输入在公共子空间中的相近落点，从而实现跨模态学习。

公共子空间学习衍生出了两个研究领域：特征提取以及相关性度量，而每个领域都有一系列研究方法。其中，特征提取分为浅层特征提取以及深度特征提取两类方法，而相关性度量则分为Pairwise和Rank-based两种方式。

深度方法的两个分支

在跨媒体检索领域，常利用深度方法对不同模态的数据进行多层非线性特征提取，并将其映射到公共子空间，而后进行相似性度量。

而在相似性度量上，其存在两个分支：

1）从统计的角度出发，例如采用典型关联分析（Canonical Correlation Analysis，CCA）方法来获取不同模态数据的匹配关联程度。

2）从数据语义的角度来进行不同模态数据的匹配，在此基础上，通过加入三元组的限制条件，来提高匹配精度。遵循的原则为：在最小化同一语义数据在不同模态之间距离的同时，最大化不同模态不同语义数据之间的距离。

而现有的深度方法存在一定的局限性，只关注特征差异以及成对输入之间的相关性，很少考虑跨模态之间的不变性，但不得不承认，如果模态之间的偏差很大时，寻找跨模态之间的相关性是很难的。因此，最理想的情况是，寻找一种适应多模态的特征提取方式，也就是说，给定特征子空间中的某一点，使其并不能直接反映其来自哪一个模态，如图所示。

正是如此，我们可以在跨模态检索网络中引入对抗学习的思想。对抗学习被广泛应用于像素级别和特征级别的分布对齐中。如图中上半部分所示，在像素级别的分布对齐中，对抗学习主要用于真实图像和生成图像分布的对齐；此外，如图中下半部分所示，在特征级别的分布对齐中，对抗学习则用来生成Domain Adaption任务中与Domain无关的特征。

在ICML15的文章中，提出了一种实现方法：在常见的分类网络（绿色+蓝色）中加入域分类部分(粉色)，该部分在训练的过程中，采用反转的梯度层进行反向传播梯度，因此保证了不同模态在特征子空间的分布相似。

在此基础上，我们提出了一种对抗的跨模态检索(Adversarial Cross-Modal Retrieval，ACMR)方法，将对抗学习的思想应用于跨模态信息检索。整个算法流程如上图所示，它基于极大-极小的对抗机制，其中包含两个算法模块，其一是模态分类器，用来区分目标的模态，另一是特征生成器，用来生成能够适应不同模态的特征表达，以迷惑模态分类器。通过这两个模块的相互对抗，提高网络的综合性能。