论文学习：From handcrafted to learned representations for human action初步翻译

最新推荐文章于 2021-12-13 15:00:14 发布

第一段代码

最新推荐文章于 2021-12-13 15:00:14 发布

阅读量701

点赞数 1

分类专栏：学术夜谈

本文链接：https://blog.csdn.net/godot06/article/details/110640914

版权

学术夜谈专栏收录该内容

13 篇文章

订阅专栏

Abstract

人体行为识别是人类感知和计算机视觉系统研究中的一个重要分支。随着人工智能的发展，深度学习技术在处理图像分类任务(如物体检测和分类)时获得了显著的声誉。然而，由于人类的动作通常以序列图像帧的形式呈现，因此在采用深度学习技术时，分析人类动作数据所需的计算能力比静态图像明显增加。这样的挑战一直是基于学习的图像表示技术向动作序列迁移的瓶颈，因此老式的手工行为表征仍被广泛用于人类动作识别任务。另一方面，由于手工制作的表征通常是临时性的，并且过度适应于特定的数据，因此无法被泛化以应对各种现实场景。因此，借助于深度学习动作表示来完成人类动作识别任务最终是一个的选择。在这项工作中，我们对人类动作表示的最新进展进行了详细的概述。作为第一份同时涵盖手工特征和基于学习的行为特征的调查，我们明确讨论了现有两种技术的优越性和局限性。本调查的最终目标是分别对基于学习的动作表征和基于手工的动作表征进行全面的分析和比较，从而激发行为动作识别研究者对这两种表征技术的研究热情。

Introduction

行为感知是人类从周围环境中获得的在组织、识别和解释感受的统称[1]。在心理学[2]、认知科学[3]、神经科学[4]和生物学[5]等许多现代科学学科中，对人类感知系统的研究一直是一个具有挑战性的课题。在低层次上，作为人类感知系统中的一种，人类的视觉系统可以接收到一系列关于人身体运动的观察结果。这样的观察结果再传递到人类感知系统的中级层面，就可以对动作类别进行预测，如跑步、挥手、跳跃等。人类的日常活动是基于大量的视觉感知所获得的信号。想象一下，你现在正和另一个球员在操场上打篮球。他在你面前运球，而你正试图防守他。在你的视觉感知系统的最低水平上，可以感知到另一个球员的大部分动作细节，例如，他的腿是直的，或者他的左手在上，右手在下。在中级水平上，你可以看出他站得很直，用左手运球。在最高水平上，可以根据中级感知接收到更高级的信号，比如他在下面的动作中更有可能传球，因为他的腿不在加速的位置。虽然计算机视觉最重要的任务之一是模仿人类如何感知周围环境并做出相应的预测，但现有的一些计算机视觉技术是受生物学启发的，比如卷积神经网络 (CNN)[6]，它在基于图像的分类任务中获得了卓越的性能。与图像分类类似，正确识别人类动作的能力是人类感知系统的基本组成部分。为了开发一个能够达到类似人类性能水平的强大的动作识别系统，计算机视觉研究人员在过去的几十年里付出了巨大的努力。遗憾的是，由于环境复杂度高、人类类内动作变化大等挑战性问题，我们今天所能达到的效果与成熟的人类感知系统所能达到的水平还相差甚远。自 20世纪80年代，行为识别的研究首次引起计算机科学研究者的注意，动作表示主要依赖于梯度的统计[7]、全局滤镜的组合[8]、深度图像和骨架[9]等，这些特征可以统称为手工特征。鉴于前面所说的生物启发学习特征的重要性，越来越多的基于学习的视频表征正在改变老式手工特征的主导地位。在本次调查中，我们旨在对现有的动作表示和识别方法进行全面调查。在本节余下的部分，我们将对本调查所涉及的动作识别相关技术的范围以及本调查内容的结构进行讨论。

Scope of study研究范围

调查中的讨论主要集中在动作表征的研究上，看似调查范围很窄，但实质上是动作识别的核心。"动作 "一词总是与类似的 "手势"、"互动 "和活动等术语相混淆。明确地说，行动是指有意图、有目的、有意识和有主观意义的活动，其中"姿态"、"行动"、"互动 "和 "活动"，上述四个术语可以按复杂程度的递增顺序进行关联。[10]。尽管本调查主要关注的是基于动作相关输入的表示技术，但也涵盖了对动作通用的相关表示方法（如手势表示）。在文献中，现有的一些关于基于视觉的动作识别主题的调查。这些调查要么是按照不同的分类法进行架构，要么是强调不同的覆盖领域。例如，这两项调查由 Aggarwal和Ryoo[10]和Cheng等[11]遵循分类法，将动作识别方法分为单层方法和分层方法；Moeslund等[12]和。Poppe[13]遵循动作基元、动作和活动的层次结构；在Aggarwal和Cai[14]的早期工作中，从三个子课题讨论了人体动作分析，分别是：1）基于人体部位的动作分析；2）移动的人体跟踪；3）基于图像序列的人体识别。从另一个角度来看，以往的研究是以不同的兴趣部位来研究动作识别问题。例如，Cedras和Shah[15]主要研究了基于运动的动作识别方法；Gavrila[16]研究了人体和手的跟踪，以及基于跟踪的识别方法。根据以往的相关调查工作，对分类法和研究兴趣进行了较为全面的总结，见表1。由于人体动作是人体各种动作的集合，从表1中可以发现一个明显的趋势，即大量的工作集中在对人体动作的研究上。

Survey structure

我们基于动作表示的两种主要方法来构建本次调查，这两种方法是手工表征方法和基于学习的方法。在第2节中，我们从四个子类别回顾了手工制作动作表示的最新进展，包括基于空间-时间包的方法、基于深度图像的方法、基于轨迹的方法和全局的方法，其中在结尾处给出了讨论。第2节来总结列出手工表征办法的缺点和优点。在第3节中，我们对现有的基于学习的动作表示方法进行了全面的调查，包括基于非神经网络的方法和基于神经网络的启发方法，其中重点分配给后者。对于基于非神经网络的方法，我们有选择地列举了基于遗传编程的动作表示方法和基于字典学习的动作表示方法，对于基于神经网络的方法，我们采用了更精细的分类法，从静态框架的方法、基于框架转换的方法、基于手工特征的方法、基于3D CNN的方法和混合模型等方面对这些方法进行了回顾，这些分类法之间可能存在一定的重叠。在第3节的最后，还对手工制作的动作表示和基于学习的动作表示进行了讨论和比较。最后，在第四节进行了总结.

2. Handcrafted action representations

伴随着动作识别的发展，手工表征的动作识别一直占据着主导地位。在深度学习方法出现之前，最流行的动作识别框架遵循的是一种传统的流水线，它首先从空间显著性和动作运动（时间）中提取局部统计数据，然后将这些局部统计数据组合成视频级的表示，并反馈给判别性分类器（如支持向量机（SVM）[18]）。低级特征通常是建立在像素级的基础上，并精心设计来处理具有挑战性的问题，如遮挡[19，20]和视角变化[21-25]。在本节余下的部分，我们将从以下几个方面对一些流行的手工动作特征进行回顾和总结。1）基于时空的方法，2）基于骨架的方法，3）基于轨迹的方法，4）全局方法。

2.1. Spatial–temporal volume-based approaches 基于时空的方法

在动作识别问题开始引起计算机视觉研究者关注的早期，最流行的开发动作识别的方式遵循了对象识别的共同趋势，即建立基于检测到的时空兴趣点的分类框架[26].人们为开发有效的检测器付出了重要的尝试，包括参考文献[26-29]。早期的兴趣点检测器大多基于尺度不变特征变换(SIFT)[30]的扩展，类似于二维兴趣点检测器，而Dollar等人[31]则提出了另一种方法，即对每个检测到的三维兴趣点周围的时空体积的三维立方体进行表征，通过检测时空空间中的角[32,33]或使用高斯的拉普拉斯(Laplacian of Gaussian,LoG)[34]来获得局部最大响应，从而找到兴趣点。然后从这些稀疏检测的时空量中提取低级动作特征，如光流直方图(HoF)[35]、定向梯度直方图(HoG)[36]、3D扩展HOG(HoG3D)[7]，并通过编码方案，如字袋(BoW)模型[37]、稀疏编码(SC)[38]或局域性约束线性编码(LLC)[39]，投射到视频级表示。基于时空兴趣点的方法和基于时空体积的方法的例子如图1所示。虽然稀疏的时空体积方法在技术上是合理的，并得到广泛的推广，但后来的一些工作表明，采用密集采样的时空体积可以提高性能。例如，Wang等[40]在局部动作特征评估工作中比较了密集动作表示和稀疏表示的性能，在使用HoG/HoF特征或HoG3D特征时，基于BoW的密集采样方法取得了更好的性能。Wainland等[19]也提出了一种基于HoG的密集动作表示法，在处理动作识别中的遮挡问题时取得了突出的性能。

2.2. Depth image-based approaches 基于深度图像的方法

由于深度相机的出现和普及[41-43]，与姿势估计相关的任务被大大简化。不得不提的一项出色的工作是基于单图像的实时身体部位估计算法[9]，这也是其中最畅销的游戏机之一Xbox的人机交互系统基于Kinect深度相机[44]所采用的核心技术。即使参考文献[9]中介绍的工作没有直接应用于动作识别任务，但它已经成为当下基于深度输入的动作识别方法的基础。以往基于深度图像的方法无论是在效率还是再初始化前期都存在困难，而基于深度图像所提出的方法可以实现基于单幅图像和消费者硬体的快速、稳健的身体部位估计。将身体部位估计任务视为深度图像像素级分类任务，计算效率主要通过利用随机决策森林来保证。在算法的输出端可以得到可靠的身体部位建议，描述三维骨骼关节的位置。图2给出了基于深度图像的人体骨骼获取方式的说明。

2.3. Trajectory-based approaches 基于轨迹的方法

通过沿着动作视频跟踪人体关节，可以计算出动作轨迹。近年来，基于轨迹的动作表示法已经被证明是最成功的手工浅层表示法。Wang等[45]介绍了一种集成了HOG、HOF和运动边界直方图(MBH)的密集采样富特征[46]，通过使用光流跟踪密集采样点获得轨迹。由于对轨迹施加了全局平滑性约束，因此得到的轨迹更加稳健。在基于密集轨迹的动作表示出现后，人们进行了大量的尝试，目标是用更先进的基于轨迹的方法进一步提高动作识别性能。伴随着性能的提升，在视频中加入高密度的轨迹时，自然可以预见到最终的高计算成本。 为了减轻计算的复杂性，Vig等人[47]采用saliency-maps来提取帧内执行动作的突出区域。基于从人类眼球运动中提取的saliency-map，可以丢弃大量密集的轨迹，而动作识别性能仍然可以保持在一个较高的水平。当我们在进行动作识别时，甚至可以观察到比参考文献[45]更好的性能。[45]，甚至可以观察到当修剪比例介于 20%和50%。为了增强针对摄像机运动的动作表示，Jiang等人[48]利用局部和全局参考点，这些参考点在动作轨迹的顶部操作，以描述动作运动。同样，通过研究相机运动产生的运动，Wang等人[49]进一步提高了他们之前的密集轨迹工作[45]的性能，将人类运动引起的运动与相机运动引起的运动区分开来，相机运动可以通过使用加速鲁棒特征（SURF）[50]和密集光流[35]在不同帧间匹配特征点来估计。就像密集轨迹[45]一样，改进的密集轨迹[49]很快就成为所有手工方法中最普及的动作表示。在改进的密集轨迹特征之上，Peng等人[51]进一步构建了多层堆叠的 Fisher向量(FV)[52]的方法，将改进后的密集轨迹特征得到的FV堆叠在子卷内以提升性能。

2.4. Global approaches 全局方法

几乎所有的上述方法都是在局部视频量内操作的。相反，也有一些全局方法从整体动作视频中提取动作表示。虽然局部方法可以很好地保存视频卷内的局部结构，并且对局部遮挡不敏感，但另一方面，全局方法的主要优势是可以很好地捕捉动作的全局结构。同时，由于全局方法通常将整个动作视频作为框架输入，并在视频像素层面上进行池化或过滤，因此它总是能得到一个相对简单的架构，从而需要较少的计算成本。Zhen等[53]提出了一种时空可转向金字塔(STSP)动作表示方法。通过将时空体积分解为带通的子体积，时空模式可以呈现在多个金字塔尺度上。然后对带通的子卷采用三维可分离的可转向滤波器，并对这些滤波器的输出进行平方、相加和最大池化处理，生成视频级的动作表示。 Shao等[54]提出了一种时空拉普拉斯金字塔编码(STLPC)方法，用于获得整体性动作表示。 STLPC将每个视频序列分解为一组带通滤波组件，并将驻留在不同尺度的时空金字塔特征局部化，从而使动作信息得到有效编码。在带通滤波阶段后，对Laplacian金字塔的每一级采用3D-Gabor滤波器[55]，其中每个滤波带在时空邻域上采用最大池化，以捕获空间结构和时间运动信息。一些基于学习的方法[56-58]也具有上述全局方法的特点，例如，输入整个视频序列并捕获全局结构，但是，我们将这些基于学习的方法排除在本小节之外，将其放在第三节。

2.5. Discussions

伴随着手绘动作特征的发展，以往的方法大多致力于捕捉连续身体运动中所蕴含的运动信息，而目前手绘特征的成功是通过多种技术逐步实现的，如光流、MBH、HOG、HOF和密集轨迹。到目前为止，最有效的动作特征是IDT[49]及其与Fisher向量一起工作的扩展堆叠版本[51]。手工制作的成功也在冲击着基于学习的动作表示法。现有的一些基于学习的动作表示法是建立在手艺特征上的。另一方面，手工制作的动作特征也有一些局限性。由于现有的手工制作特征最有效的是局部特征，并且遵循密集样本策略（如IDT），这些方法的一个主要限制是在训练和测试阶段都不可避免的高计算复杂性。这样的限制会阻碍手工制作的动作特征在很多实时应用中的应用。（手工方法的局限性-高计算复杂性）

3. Learning-based action representations

手工制作的动作特征通常是在视频像素级别上进行操作，并测量空间体形或时间运动的低级统计，而最近，有人提出了更先进的方法，即在手工制作的动作特征之上进行操作，或者建立从像素级别到动作类别的端到端动作识别框架。我们将现有的基于学习的动作表示法总结为基于非神经网络的表示法和基于神经网络的表示法。直观地说，与基于非神经网络的方法和基于神经网络的方法的区别在于，后者是为了模仿人类从生物学角度观察世界的方式。正如第1节介绍的那样，深度学习方法，如CNN，由多层组成，这些层的功能预计与人类感知系统的神经层类似。

3.1. Genetic programming-based approaches 基于遗传方案编制（规划）的方法

遗传编程(GP)[59]作为一种进化方法，已经被广泛地运用到视觉分类任务中。遵循达尔文的自然选择原则，在没有任何先验知识的情况下，自动搜索一个可能的解的空间。 GP依靠的是一个自然和随机的过程，它可以逃脱手工方法可能被捕捉到的陷阱。在GP算法中，首先采用一组原始算子随机组合计算程序作为初始化。然后，通过随机选择的单亲或对亲繁殖，使用交叉或突变策略在种群上进行演化[60]。Liu等人利用3D-Gabor滤波器[55]和小波[61]等原始3D算子的种群，从颜色和光流场中演化运动特征。在演化架构中采用了使用SVM对训练数据计算平均交叉验证分类误差的GP健身函数。通过对整个进化过程的整理，所选的解决方案是一组可以直接对动作序列执行的级联算子，从而在查询阶段实现了高效的特征提取步骤。

3.2. Dictionary learning-based approaches

字典学习是一种流行的表示学习方法，在大多数情况下，它是指以基础字典原子的线性组合形式学习输入数据的稀疏表示。由于研究人员发现，在处理数据分类任务时，信号的稀疏表示特别有效，因此，字典学习技术已被广泛地应用于计算机视觉领域，包括图像分类、显著性检测、动作识别。著名的词袋(Bag-of-words，BoW)模型[62，63]是基于一种特殊类型的字典学习方法，它不使用基础字典原子的组合，而是将每个输入信号分配给一个基础字典原子。BoW模型被局部方法广泛用于生成全局数据表示，因此，该模型的 BoW模型可以被2.1、2.2和2.3节介绍的大多数方法所采用。为了通过稀疏编码获得更有辨识度的动作表示，Guha等人[64]提出学习稀疏表示用于动作识别，并显示出比BoW模型更好的性能。基于稀疏性的字典学习的经典目标函数包含一个重建误差项和一个正则化项，其中后者使用l0-norm或l1-norm对选定的基础字典原子数进行惩罚。除了经典的基于稀疏性的字典学习方法外，还提出了一些变体来处理高级要求，如对所学的稀疏码执行判别力，以及最小化转移学习任务的跨域差异。Zheng等[65]在从不同观测点捕获的动作上学习一个跨视图字典对，并用相应的字典对每个特定视图内的动作进行编码，这样编码后的动作表示可以是视图不变的。Zhu和Shao[66]提出了一种弱监督的字典学习方法，将一个动作数据集的知识适应于另一个动作数据集。除了常用的重构误差项外，字典学习函数还有一个判别项和一个跨域差异项，这样在学习的动作编码中就可以保证跨域平稳性的特性。

3.3. Neural network-based approaches

这项工作的主要重点是基于神经网络的特征，这将在本节剩余部分明确讨论。作为目前流行的生物启发技术，深度学习是一种试图利用层次结构对数据进行高级抽象建模的机器学习算法。与手工制作的特征相比，深度学习进行了更多的知识倾斜，并且包含了分层特征提取层，其包含的可训练参数比浅层架构（如内核机）多得多[67]。基于将深度学习技术成功应用于图像级分类任务，近期一些工作也在使用类似的基于学习的表示方法进行动作识别，这些工作按照以下方向进行总结。1）从视频帧中学习，2）从帧变换中学习，3）从手工制作的特征中学习。 4）三维卷积网络和5）混合模型。

3.3.1. Learning from static frames 从静态框架中学习

虽然已有多个成熟的深度学习框架用于图像特征提取，如OverFeat[68]和Caffe[69]，但将这些框架中的任何一个应用于动作视频内的帧，并在帧级提取动作特征，都是一个自然而然且最直接的选择.Ning等[70]将基于视频的胚胎发育问题分析分解为帧级二维图像，并将二维CNN应用于发育过程的各个阶段（从受精到四细胞阶段）。

3.3.2. Learning from frame transformations（转换）

限制性玻尔兹曼机（RBM）[71]是一种生成式随机人工神经网络，它可以通过连续组成多个RBM来提供 "深度架构"。在RBM的基础上，Taylor等人[72]提出了一种无监督的方法，利用门控的限制性玻尔兹曼机学习时空特征(STF) (GRBM)为基础的[73]卷积架构[6]，从相邻图像对中提取运动敏感的动作特征。具体来说，GRBM架构最早是由Memisevic和Hinton[6]提出的，用来描述学习丰富的和分布式的图像变换表示的概率模型。这样的生成模型试图根据当前帧的观测流预测下一帧图像，从而在两帧之间进行 "映射"，随后根据帧变换提取流特征。通过将GRBM模型扩展到连续帧中相同空间位置的图像斑点，GRBM可以自然地捕捉到连续图像对的变换。为了避免像参考文献[6]和[74]那样在孤立的斑点上训练GRBM的局限性，GRBM可以自然地捕捉连续图像对的变换。[6]和[74]，Taylor等人[72]通过与卷积架构[6，75]结合，将GRBM扩展为卷积GRBM(convolutional GRBM)，一个图像内多个位置的权重由convGRBM共享。convGRBM以多级架构运行。在最低层，convGRBM从每个相邻帧对中提取运动敏感特征。在中间层，时空线索被3D时空滤波器捕获，它由2D空间滤波器扩展而来。Jarrett等人[76]。在进行归一化、平均空间池化和额外的时间维度的max池化后，可以通过全连接层得到动作表示，动作标签在最上层（softmax）。低层conGRBM采用无监督训练，并与上层分别进行训练，其中上层进行反向传播。

3.3.3. Learning from handcrafted features

计算基于学习的动作表示法的另一个自然选择是在手工制作的特征之上进行学习。事实上，大多数旨在利用基于学习的表征解决动作识别问题的早期尝试都属于这一类。本小节需要与上一节 "基于手工制作表征的动作识别 "区分开来，因为前者讨论的是如何基于现有的低级特征建立学习网络，而后者讨论的是如何从原始像素级视频数据中提取低级特征。Kim等[77]提出了一种改进的基于卷积神经网络(MCN)的动作特征提取和分类框架。在低层次上，通过手工制作的特征来捕捉动作信息。具体来说，当代理人所做的动作呈现在三维视频中时，代理人的外边界序列，可以看作是空间平面上的二维轮廓，生成一个时空体积，在这个时空体积中，外边界信息被提取出来，使用三维的 Gabor 滤波器[78].因此，在每个时空卷中，动作以视图不变的形式呈现。因此，在每个时空卷中，动作以视图不变的形式呈现。为了减小归一化后的位置差异，将扩展的三维卷积神经网络应用于每个时空卷，随后可以根据代理的外边界特征，从一组分层中提取动作特征。一个 3D CNN由两个卷积层和两个子采样层组成，其中每个卷积层或子采样层由两个子层组成。然后将提取的特征输入到一个判别性分类模型中[79]。

Jhuang等[80]提出了一种生物启发系统(BIS)，利用复杂度越来越高的时空特征检测器的前馈层次结构来测量运动方向敏感单元，从而得到位置不变的时空特征检测器。由尺度和位置不变的特征所激发的 [6，81，82，83]，通过计算层次结构顶端的每个特征图的全局最大值，得到尺度和位置不变的特征向量。这种方法的主要弱点是它需要精心手工制作的时空特征检测器。

Wu和Shao[84]提出了一种层次参数网络 (HPN)为基础的骨架特征。通过用多层网络代替Ref. [85]中的多层网络，HPN方法可以作为一个更好的模型来估计隐藏马尔科夫模型的发射概率[86]，并实现比其他成熟方法更好的性能。与Ref. [9]中介绍的方法。参考文献 84]也对深度图像进行了操作。

3.3.4. Three-dimensional convolutional networks

参考文献中介绍了第一个旨在开发三维卷积神经网络(3D CNN)并在像素级沿空间和时间两个维度进行三维卷积的尝试。[56]. 通过在相同的输入位置应用多个不同的卷积运算，随后从多个信息通道中提取特征，这种三维CNN方法得到的动作表示包含多种信息。在二维CNN[6]中，卷积是在空间域中进行的，从共享的相邻单元中提取特征。前一层中的相同特征图。另一方面，卷积是在空间和时间维度上使用3D立方体进行的，3D立方体是通过堆叠多个连续帧生成的。所提出的3D CNN架构由7层组成，包括输入层，硬连接到三个卷积层和两个交替顺序的子采样层。最后一层由128个特征图组成，并与前一层的所有特征图完全连接。三维CNN架构的主要前提来自于前馈性，它可以在识别阶段实现高效的特征提取。三维CNN架构示意图参考文献[56]中使用的CNN架构如图3所示。[56]给出的是图3。

在第一批用基于学习的方法解决动作表示的尝试中，Le等人[57]提出了层次不变时空（HIST）动作特征。该特征学习框架是基于独立子空间分析(ISA)[87]建立的，ISA是一个两层网络，通常用于从二维图像中提取特征。由于 ISA训练过程效率较低，尤其是在处理大规模视频数据时，ISA向视频域的迁移由原理分量分析(PCA)辅助[88]。完整的HIST框架由多个ISA组成，每个ISA首先在小的输入补丁（来自图像补丁序列的扁平化向量）上进行训练，然后通过PCA将响应传播给下一层缩小维度的ISA。继承了ISA的无监督学习特性，HIST也是以无监督的方式对动作视频进行操作，因此可以利用大规模可用的无标签在线视频数据。

Baccouche等人[58]提出了顺序深度学习(SDL)方法，采用了类似Kim等人[77]中的策略，将CNN扩展到三维场景。这样的扩展在Ref. [58]中，这样的扩展相当简单，因为二维卷积被简单地替换为三维卷积。另一方面, 参考文献[58]与参考文献[58]不同. [58]与参考文献[77]的不同之处在于 77]的不同之处在于，前者的CNN架构直接对原始视频像素进行操作，而后者的CNN框架是建立在手工制作的低级特征之上。参考文献[58]中CNN架构的构建也与前者不同，后者是建立在手工制作的低级特征之上。[58]中CNN架构的构建也与Ref. 77]的顺序，遵循两个交替卷积层、一个整流层、一个子采样层、第二个交替卷积层、第二个子采样层、第三个卷积层和两个神经元层。训练过程遵循标准的在线反向传播与动量算法[6]。一旦使用三维CNN架构提取动作特征，就会利用顺序动作标注方案。Baccouche等人[58]没有利用小尺寸的时空量来生成三维区域进行CNN学习，而是通过CNN对顺序数据的适应性来捕捉特征随时间的演变，其中循环神经网络(RNN)[89]与一个隐藏层的长短期记忆(LSTM)[90]。除了LSTM模型[58]外，还有一些基于RNN的方法被提出用于人类动作识别任务，包括基于骨架表示的分层递归神经网络[91]和差分递归神经网络[91]。然而，与LSTM模型相比，常规RNN无法捕捉帧间的长期依赖关系，因此这些模型在理论上是劣势的。

Karpathy等[92]进行了全面的研究，提供了三种基于CNN的动作识别方法，并对所有这些方法进行了广泛的评估。本研究的主要重点是研究在识别动作时与动作信息结合的最佳方法，以及在静态视频帧上应用CNNs可以提升多少动作信息的改进。Karpathy等[92]基于对一个新的大规模动作视频数据集的广泛研究，该数据集由100万个YouTube视频组成，属于487个类，以及许多其他真实世界的在线视频，Karpathy等[92]发现大多数视频通常呈现出高度不一致的性质，因此无法用固定大小的架构轻松处理。因此，通过将几个连续的帧在时间上连接起来，并插入网络来学习时空特征。为了更好地分析运动信息带来的好处，Karpathy等人[92]提出了三种基于CNN的学习策略。早期融合、后期融合和

缓慢融合。这些融合策略的说明见参考文献中重印的图4。[92]. 基于单帧架构，相当于将CNN应用于二维图像，Late Fusion在两个相隔的帧上实施两个独立的CNN（例如，从15帧的距离），并在第一个完全连接的层中连接两个网络，因此可以在全局水平上捕获动作运动特征。而早期融合则是修改了基于2D单帧的卷积窗口，以包括时间维度，并将这些3D立方体馈送到第一卷积层。早期融合策略与参考文献[6]和[58]的作品在捕捉运动信息的方式上是相同的。[6]和[58]，在运动信息的捕获方式上是一样的。作为早期融合和后期融合之间的折衷方案，慢速融合 SFCNN）在空间和时间两个维度上逐步连接来自卷积层的相邻帧。这三种类型的融合策略也可以推广到其他基于学习的动作表示方法。这种分类法的细节将在下面的讨论小节中给出。由于基于CNN的方法对计算的要求很高，特别是当被扩展以纳入额外的维度时，人们也在努力研究如何加快训练过程，在Ref. [92]中，在实现中采用了一种同时采用上下文流和蜂窝流的改进架构。特别的是，在上下文流中，输入的视频片段被下采样到原始空间分辨率的一半，而在fovea流中，原始帧的中心区域被裁剪成与上下文流中相同大小的下采样分辨率。来自两个流的激活被连通并送入第一个全连接层，用于生成最终的动作表示.有趣的是，实验结果表明，在单个静态视频帧上执行CNN与在帧的堆栈上执行CNN的性能相似，这表明运动信息没有被所提出的方法很好地捕获。

3.4. Hybrid models（混合）

与参考文献[92]中的多分辨率策略的双流架构不同，这种架构设计的目的是加快训练过程，最近Simonyan和Zisserman[93]提出了一种双流卷积网络方法，通过将动作视频分解为空间和时间两部分来学习动作表示。而不是像参考文献[92]和[58]那样隐式估计动作，而是通过将动作视频分解为空间和时间成分来学习动作表示。92]和[58]那样隐式估计运动，而是将几个相邻帧之间的光流位移场[94]堆栈作为输入，并在光流之上训练卷积网络。参考文献[93]进一步提出了几种卷积网络的配置。[93]，包括利用相邻对连续帧的密集光流堆叠，沿运动轨迹对跨几帧的光流进行采样的轨迹堆叠，以及以密集方式或基于轨迹的采样方式同时计算光流前进和后退方向的双向光流。卷积网络的训练是在多任务学习环境下进行的[95]，任务设定为对HMDB-51数据集[96]和UCF-101数据集[97]中的视频进行分类，在最后一个全连接层的基础上配备两个softmax分类层，这样一层计算HMDB-51分类得分，另一层计算UCF-101分类得分。两种流的训练程序大致相同，与参考文献[98]和[99]中的网络架构相似，都是通过训练来实现的。[98]和[99]，其中时空网络可以认为是Ref. 100]在时域上的改编。空间网络在静态动作帧上执行二维卷积，而三维卷积架构也类似于参考文献[56]、[58]和参考文献[100]中的架构。56]、[58]和[92]中使用的架构相似。就卷积网络如何应用于视频数据而言，所提出的双流方法可以被认为是一种从手工制作的特征和原始像素中学习的混合模型。

受Ref. [93]和浅层手工视频表示法[45]的成功，Wang等[101]提出了一种轨迹池式双流深度卷积描述器（TDD）。通过采用与参考文献中的双流学习架构类似的网络架构。93]，并在HMDB-51数据集[96]和UCF-101数据集的组合上进行训练，训练后的卷积网络可以被认为是通用的特征提取器，然后用于计算目标数据集中每个视频的多尺度卷积特征图。同时，利用参考文献[45]中的方法从每个动作视频中计算出改进的轨迹。[45]从每个动作视频中计算出改进的轨迹。然后，通过在时空中沿轨迹汇集局部卷积网络响应来进行轨迹汇集，最终的TDD描述符由汇集结果获得。与Ref. 93]，Ref. 45]更倾向于手工制作的特征方面，因为除了训练双流网络时使用的光流外，还利用密集的轨迹来池化深度卷积描述符.在TDD的基础上，Wang等人[101]进一步利用辨别力，将双流网络中的光流进行了优化。在TDD的基础上，Wang等人进一步利用判别性的Fisher向量[102]对TDD进行编码，他们报道的领先性能是通过使用Fisher向量表示法提前融合TDD和改进的密集轨迹特征来实现的.然而，由于Fisher向量表示法并没有用于获得分类结果，在Ref. [93]，没有证据支持TDD在网络架构方面优于原有的双流卷积网络[93]。

3.5. Discussion

上述基于学习的动作表示法涵盖了大多数基于网络架构的、2010年以后发表的最流行的方法。根据如何在动作视频上进行学习，我们将这些方法分为多个分支，包括从静态帧学习、从帧变换学习、从手工制作的特征学习、用三维神经网络学习和用混合模型学习。事实上，这些分类法是相互重叠的。例如，参考文献[93]和[101]的作品。93]和[101]被归类为混合模型，同时他们的学习架构也是以手工制作的特征作为输入；Ref. [72]也是与三维卷积网络合作；除了Ref. 72]外，上述大多数方法都包含了旨在从动作运动中学习的元素。因此，其他一些分类法可以用来区分不同的基于学习的动作表示。我们在图5中说明了这些扩展的分类法，并列出了相应的基于学习的动作表示的归属。

现有流行的基于学习的动作表示法大多是直接将CNN应用于视频帧，或者是CNN的变体用于学习时空特征。表3列出了一些流行的基于CNN建立的学习型表示法的网络架构。对于其他基于学习的方法[57，80]，由于在其学习框架中并没有利用CNN架构，所以我们没有在表3中列出。所列举的网络架构在输入数据类型、层数、层组件和不同组件的连接顺序上都有所不同.到目前为止，还没有一个被广泛认可的学习动作表示的网络架构。SFCNN方法利用了所列作品中最大的层数，然而，所提出的网络实现的结果与对单个视频帧进行操作的网络相当，这说明在这样的网络中，动作信息并没有得到有效的学习。另外，基于SFCNN实现的结果明显差于最好的手工浅层表示[45，51]，SFCNN未能证明具有长级联层数的网络可以带来更好的性能。参考文献[93]和[101]中所使用的网络架构都是由SFCNN来实现的。93]和[101]都是基于图像可视化和理解网络[99]，由于它们在基于学习的动作表示中取得了领先的性能，因此在感知上是有效的。遗憾的是，由于这两种方法中的动作信息仍然是由手工制作的特征来捕捉的，而且报告的空间流网络结果明显比最好的手工制作的浅层表征或其提出的双流模型差，因此无法证明Refs. 93]和[101]中的性能改善来自于网络架构的优越性。

与空间CNN不同的是，空间CNN可以使用大规模的图像数据（如ImageNet[17]）进行训练，大多数用于动作分类的可用数据集还是相当小的，例如UCF-101数据集[97]，它由101个类别的9.5 K个视频组成，HMDB51数据集[96]则由51个类别的3.7 K个视频组成。为了增加可用于训练的视频数量，一个直接的选择是简单地将两个数据集合并起来进行训练，然而，由于类集之间的交叉，这是不实际的。因此，最近的方法[92，93]寻求更有原则性的方法，使用多任务学习[95，111，112]或转移学习[113-115]来组合现有的动作数据集。在参考文献[95]中的多任务学习环境中，多任务学习的架构是由多任务学习和转移学习组成的。95]中，卷积网络的架构被修改，使2个软max分类层可以级联到层全连接层的顶部，其中一个软层处理HMDB-51数据集的分类任务，而另一个则处理UCF-101数据集的分类任务。另一方面，在Wang等人[101]采用的转移学习设置中，模型在UCF-101数据集上进行训练，并扩展到HMDB-51数据集上进行动作特征提取和动作分类。到目前为止，最大的可用视频数据集是Sports-1 M数据集[92]，它由100万个YouTube视频组成，注释了487个类别。正如参考文献 92]，由于没有UCF-101视频的YouTube视频ID，因此无法严格保证HMDB-51数据集和UCF-101数据集不相互重叠。不幸的是，即使排除了Sports-1 M数据集和UCF101数据集之间的数据集交集，在Sports-1 M数据集上训练的模型仍然无法引领最佳性能。我们在表2中列出了最先进方法在一些流行数据集上的性能对比。行为表示，最有效的基于学习的方法可以超越手工制作的动作特征所达到的最佳性能，尽管这些基于学习的方法仍然依赖于手工制作的特征。然而，直接从视频中提取的纯学习型方法的性能仍然远远落后于动作识别研究人员的预期。原因可能有两个方面。1）与那些在图像领域的成功案例不同，现有的基于学习的方法大多没有在大规模数据上进行训练，这可能导致网络的泛化能力不足；2）为了平衡计算成本，在基于学习的动作表示中，下采样策略被广泛利用，下采样过程中的信息损失可能导致不同程度的性能下降。在未来，我们可以预见更高级的动作表示法的出现，能够在保持网络架构简单性的同时，实现性能的提升。

翻译工具初步翻译欢迎修正

文献地址：http://dx.doi.org/10.1016/j.imavis.2016.06.007