Abstract
本文提出了一个新的框架,联合学习特征关系并利用类关系来提高视频分类性能。具体而言,这两种类型的关系是通过在深度神经网络(DNN)中严格实施正则化来学习和利用的。
贡献:
- 我们建议对DNN中的融合层进行结构正则化,以识别多个特征的相关性,同时保持其多样性。这种独特的能力使所提出的方法不同于大多数现有的工作,这些工作通常采用浅层融合过程,而不考虑对特征相关性的深入探索。
- 我们还建议通过对DNN的输出层施加类似的结构正则化来探索类间关系。因此,跨功能和类间关系都是在一个统一的框架中制定和探索的,这个框架可以很容易地用GPU实现,并以可承受的时间成本进行训练。
- 我们提供了大量的实证评估,以详细证实提出的框架的有效性,并且我们在广泛使用的实际基准上取得了迄今为止的最高绩效。
Introduction
鉴于现有工作的局限性,本文提出了一种基于深度神经网络(DNN)的统一框架,该框架联合学习特征关系和类关系,同时利用学习到的关系在同一框架内进行视频分类。图1给出了本文提出方法的概念图。
首先,提取各种视频特征,包括局部视觉描述符和音频描述符。然后将特征用作DNN的输入,其中前两层是输入层和特征转换层。网络的第三层称为融合层(Fusion Layer),其中对网络权重施加结构正则化,以识别和利用特征关系。具体而言,正则化项的设计基于对特征间关系的两个自然属性的观察,即相关性和多样性。前者意味着不同的特征可能在位于原始特征和高级语义之间的中间层表示中共享一些共同的模式。 后者强调不同特征的独特性,作为预测视频语义的补充信息。通过使用特征相关矩阵对这两个属性进行建模,我们对融合权重进行迹范数正则化,以揭示特征的隐藏相关性和多样性。
对于类间关系,我们对最终输出层的权重进行正则化,以自动识别视频类的分组结构以及异常类。同一组中的语义类具有共同点或相关性,可作为知识共享来提高分类性能,而离群类应排除在负面知识共享之外。我们将表明,通过对输出层的权重施加类似的基于迹范数的正则化,我们能够有效地探索此类复杂的类间关系,以产生更好的视频分类结果。
请注意,可以使用原始视频数据作为输入,而不是手工制作的特征,如最近使用深度学习进行图像分类的工作[22]。在这种情况下,可以采用卷积神经网络(CNN)从原始数据中进行特征提取。在我们提出的框架中使用手工制作的特征的原因有两个方面。首先,手工制作的特征在视频分类中得到了广泛的应用,并且仍然是一些视频分析系统的核心组件,这些系统在人类行为识别和事件识别等任务上产生了最新的最新结果。通过使用这些特征,很容易与传统的语义分类方法(如流行的SVM分类器)进行公平的比较。其次,使用神经网络提取特征需要更多层的神经元,这些神经元需要调整大量额外的参数,需要更多的训练数据。
请注意,在许多视频分类任务中,可用的训练数据量远远不足以训练层过多的神经网络。因此,在本文中,我们将提出的正则化DNN用于特征融合和视频语义分类。据我们所知,这项工作是首次尝试在DNN中捕获用于视频分类的特征和类关系。
图1:提出的基于DNN的视频分类框架概述。首先提取各种视觉/音频特征,然后将其用作DNN的输入。在融合之前,使用一层神经元对特征进行转换(抽象)。在融合层,对网络参数进行正则化,以确保不同特征可以共享相关维数,同时保持其独特的特征。如图中线宽所示,不同特征的某些维度可能高度相关(粗线指向同一神经元)。然后,对融合层和输出层之间的权重进行正则化,以识别类别组。学习到的特征间关系和类间关系都被用来提高分类性能
3 Methodology
3.1 符号和问题描述
假设我们得到了一个包含N个视频片段的训练集,这些视频片段与C个语义类相关联。这里,每个视频剪辑由M个不同的特征表示,例如各种视觉和音频描述符。因此,我们可以将每个训练样本表示为一个(M+1)元组:
其中表示第n个视频样本的第m个特征表示。如果第n个视频样本与第c个语义类关联,则是对应的语义标签,其中第c个元素=1。
目标是训练预测模型,以便对新的测试视频进行分类。一种简单的方法是为每个语义类单独训练一个分类器,并且可以使用早期融合或晚期融合方案组合不同的特征。然而,这样一种独立的训练策略并没有探索内部特征以及类间关系。在此,我们提出了一种基于DNN的视频分类模型,通过探索多个特征的相关性和多样性,在融合层实现特征共享,如图1所示。此外,我们的深层神经网络的预测层也被正则化,以加强不同类别之间的知识共享。因此,在统一的学习过程中明确探索这两种关系。下面,我们首先介绍具有单一功能的标准DNN,然后介绍我们提出的正则化DNN的详细信息。
3.2 单特征DNN学习
受生物神经系统的启发,DNN使用大量相互连接的神经元来构建复杂的计算模型。该方法通过多层组织神经元,具有很强的非线性抽象能力,只要有足够的训练数据,就可以学习从输入到输出的任意映射函数。下面,我们简要回顾一个标准DNN,其中只有一个特性作为输入,即M=1。在总共有L层的DNN中,我们表示和作为单个特征的第层的输入和输出,。而和分别表示第层的权重矩阵和偏差向量。从第l-1层至第l层可表示为:
这里σ(·)是一个非线性sigmoid函数,通常定义为:
图2(a)和(b)显示了使用单个特征作为输入的两种类型的四层神经网络。要推导每个层的最佳权重,可以制定以下优化问题:
其中,第一部分通过将网络的输出与ground truth标签之间的差异相加来测量训练数据上的经验损失,第二部分是防止过度拟合的正则化项。为简单起见,我们可以通过向具有常数值的特征向量添加额外维度,将b吸纳到权重系数W中。
图2:不同神经网络结构的图示。(b) 是多类预测中最流行的结构,而(d)在像[42]这样的作品中用于组合多个特征,其中特征在网络中单独处理,然后通过中间层合并。在本文中,我们对(d)中所示的相同结构进行正则化,以探索特征间和类间的关系。
3.3 正则化和特征关系
在某些情况下,基于单个特征的DNN可能非常强大。然而,它只能用于数据的一个方面来执行语义预测。对于像视频这样的复杂数据,语义信息可以通过不同的特征表示来承载,包括视觉和音频线索。请注意,由于忽略了多个特征表示之间的内在关系,简单的融合策略(如早期或晚期融合)通常会导致有限的性能增益[4]。此外,这种简单的融合方法通常需要额外的训练分类器。因此,希望获得一种紧凑而有意义的融合表示,充分利用各种特征的互补线索。下面,我们将基本DNN扩展到一个正则化变体,该变体能够适应多个特征的深度融合过程。
我们共获得了M个特征: 对于每个视频样本。受生物系统中初级神经元的多传感器整合过程的推动,我们建议使用一个附加层来融合所有特征,如图1所示。因此,该融合层的过渡方程可以写成如下:
其中,E和F分别是特征提取的最后一层和融合层的索引(即,F=E+1)。此处为表示提取的第m个特征的中级表示,该特征首先通过权重进行线性变换,然后使用sigmoid函数非线性映射到新表示。
由于所有特征表示都对应于相同的视频数据,因此很容易理解,可以使用各种特征来揭示与视频语义相关的常见潜在模式。此外,如前所述,不同的特征也可以是互补的,因为它们具有不同的特征。因此,融合过程应旨在捕捉特征之间的关系,同时能够保留其独特的特征。我们没有简单地添加多个特征信息,而是专门制定了一个目标函数来规范融合过程,以同时探索多个特征之间的相关性和多样性。特别是,将所有特征转换为共享表示的权重首先分别矢量化为P维向量,其中P是维和维的乘积。这里,我们假设提取的特征具有相同的维度。然后我们将这些系数向量叠加到一个矩阵中,其中的每一列对应于单个特征的权重。因此,元素被给出为:
然后,我们可以制定以下目标来设计正则化DNN:
其中
与标准单特征神经网络公式2中的目标函数相比,上述代价函数包含一个额外的正则化项。请注意,矩阵表示所有特征的系数。这里我们使用对称半正定矩阵对特征间的相关性进行建模,并使用迹范数引入最后一个正则化项,这有助于学习特征间的关系【12,52】。请注意,ψ中值较大的条目表示强特征相关性,而值较小的条目表示不同特征之间的差异,因为它们相关性较小。系数λ1和λ2控制来自不同正则化项的贡献。最后,将学习正则化DNN的目标作为权重矩阵W和特征相关矩阵ψ的联合优化过程。
3.4 类关系的正则化
为了识别或分类C个语义类别,可以简单地采用一对多策略来独立训练C个分类器。图2(a)和(c)分别说明了针对单特征和多特征设置的总共c个四层神经网络的单对多训练方案。显然,这些C神经网络中的每一个都是单独学习的,完全忽略了不同语义类别之间的知识共享。然而,众所周知,视频语义也有一些共同点,这表明某些语义类别可能具有很强的相关性[19,36]。因此,通过同时学习多个视频语义来探索这种共性是至关重要的,这通常会导致更好的学习性能。注意,多个类别之间的共性通常由不同预测模型之间的参数共享来表示[3,26]。与目前流行的支持向量机方法相比,DNN可以更自然地同时进行多类训练。如图2(b)所示,通过在输出层中采用一组C单元,基于单个特征的DNN可以很容易地扩展到多类问题,这种结构已被广泛采用。受标准MTL方法[3,26]中使用的正则化框架的启发,这里我们提出了一种正则化DNN,旨在同时训练多个分类器,同时深入探索类关系。为了加强语义共享,我们将标准DNN的原始目标扩展为以下形式:
注意,以前的一些MTL工作假设类关系是显式给出的,并且可以作为先验知识使用[26],而我们的方法不需要这样做。根据MTL的凸公式[52],这里我们在系数上施加一个迹范数正则项输出层的,类关系扩充为矩阵变量。注意约束表示类关系矩阵是半正定的,因为它可以被视为语义类的相似性度量。系数λ1和λ2是正则化参数。在学习过程中,最优权重矩阵{Wl}Ll=1和类关系矩阵Ω 同时导出。
3.5 联合目标
为了将上述目标统一到一个联合框架中,我们现在提出了一种新的DNN公式,该公式探索了特征之间和类之间的关系。在我们的框架中,我们使用一层神经元来融合多个特征,目的是弥合低级特征和高级视频语义之间的差距。在生成预测的最后一层,我们在不同语义之间施加跟踪范数正则化,以便更好地学习多个类的预测。在数学上,我们将方程4中的特征正则化和方程5中的类正则化合并到以下目标函数中:
其中λ1、λ2和λ3是正则化参数。与方程2中的原始目标相比,我们有两个迹范数正则化项,分别用于多个特征的融合和类间关系的探索。两个附加约束tr(ψ)=1和tr(Ω) = 1用于限制复杂性,如[52]所示。最后,上述代价函数相对于网络权重{Wl}Ll=1、特征间关系矩阵ψ和类间相关矩阵最小化Ω.