【行为识别现状调研1】_多尺度时空特征和运动特征的异常行为识别-CSDN博客

本文链接：https://blog.csdn.net/afadgas/article/details/126249225

本文介绍了行为识别（Action Recognition, AR）技术的发展历程，探讨了AR领域的核心问题——特征提取和分类，概述了当前主要的技术挑战，同时总结了国内外学者的研究成果。文中详细描述了几种主流的深度学习模型，包括时空特征提取模型、效率优化模型和长期特征捕获模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

行为识别

一、综述

2017年，计算机视觉与模式识别会议(CVPR)将视频理解划分定义为未修剪视频分类(Untrimmed Video Classification) 、修剪动作识别(Trimmed Action Recognition)、时序行为提名(Temporal Action Proposal)、时序行为定位 (Temporal Action Localization)、密集行为描述(Dense-Captioning Events)五项子任务。行为识别(Action Recognition, AR)属于修剪动作识别范畴。
特征提取和分类是AR的核心问题，因视频是一组时间序列的图像帧，所以AR模型提取空间特征时还需考虑时间特征。
目前有两条特征提取思路：一是人工设计特征。此方法基于人对各特征的敏感程度，直接设计含有物理含义的特征提取器。其针对性较强，但存在忽视数据隐含信息和通用性差等问题。二是通过深度学习从数据中提取深度特征。此方法基于大脑皮层视觉理论设计模型结构，结合数据集和反向传播算法训练生成特征提取器。此种方式可应用于各类数据，但特征可解释性较差。
AR面临以下技术挑战问题：
1.视频数据集制作困难。识别精度提升需通过大量标注的数据集训练，但视频数据的标签注释、动作定位等工作非常费时，制约了视频数据集体量化和AR模型发展。
2.模型训练效率低。视频的数据量级较图像呈指数增长，导致AR模型拟合时空特征进行迭代优化的训练过程对硬件配置要求很高，需要大量时间。
3.类内高方差和类间低方差。AR涵盖各类行为，同一类动作中各动作差别较大，而不同动作类又会呈现相似形式，这对AR特征提取器作出了更为精细的要求。
4.实时性较为不足。目前的AR模型为了追求高精度，轻量化工作较为滞后，另外基本在离线环境中仿真，视频都是预先修剪过的，很难对视频流在线识别行为。
国内外学者研究现状如下：刘勇等人阐述了行为识别在智能家居中的应用流程；刘云等人论述了基于深度学习的关节点行为识别方法；张晓平等人从异常行为识别和异常行为检测两个角度对异常行为判别方法进行了分析；裴利沈等人对传统方法和深度模型效果进行了对比分析。

二、行为识别深度模型

2.1时空特征提取深度模型

AR发展初期，以改进密集轨迹(iDT)为代表的手工方法占据了主导，Hinton 等人在2015年讨论了深度学习的原理和优势后，基于深度学习的AR工作逐渐展开。Karpathy等人基于卷积神经网络(Convolutional Neural Network, CNN)，从堆叠视频帧中学习时空特征实现端到端动作分类，其评估了晚融合、早融合和慢融合等2D CNN连接方式，但识别精度远不及传统手工方法，表明此种简单的帧融合不能有效提取时域特征。AR较图像识别，不仅要关注空间特征，还要聚焦包括时域的时空特征从而理解运动信息。

2.1.1双流卷积模型

Simonyan 等人基于光流设计了双流网络(Two-stream Network)，两条 2D CNN 路径以视频帧和堆叠光流图为输入分别提取空间及时间特征。双流网络取得了与iDT比拟的识别效果，验证了光流对AR的有效性。Feichtenhofer 等人基于双流网络探索了多种融合方式，并随着残差网络(ResNet)的推广，使用 ResNet 将双流连接，实现了时空信息的残差交互。在双流基础上，Wang等人基于VGGNet-16 架构增加网络深度，并采用小学习速率、限制裁剪区域等方法缓解加深带来的过拟合问题。丁雪琴等人对双流网络架构进行了改进，其将 BN-Inception 和 ResNet 引入，建立的时空异构双流网络验证了时空异构思想的有效性。

2.1.2三维卷积模型

Ji 等人使用 3D 卷积核学习时空特征，证明了 3D 卷积在 AR 中的有效性。后来 C3D基于图像识别的
VGG-16 架构，使用 3×3×3 尺寸的 3D 卷积核取得了不错的识别效果。鉴于 ResNet 能够缓解网络加深的退化问题，Tran 等人设计了三维残差网络(3D Residual Networks, R3D)。R3D 将ResNet 的 2D 卷积扩展为 3D，参数量较 C3D 降低了近 50%。后来 Hara 等人又基于 R3D 进行深度扩展训练，对识别精度进一步提升。Carreira 等人认为若把图像数据集中一张图片多次复制，就可生成一段“静态视频”训练 3D CNN。同理可将经过图像数据集预训练的 2D CNN中的二维卷积核参数沿时间轴复制，便能得到初始化的 3D CNN，这为 AR 使用图像识别中的成熟架构提供了便利。他们将这种思想应用在双流网络的二维卷积路径，并首次使用Kinetics 数据集进一步预训练，得到的膨胀三维卷积网络(I3D) 比 C3D 网络更深，参数更少，成为了 AR 基准方法。

2.1.3时态卷积模型

罗会兰等人设计了空间卷积注意力模块(SCA)和时间卷积注意力模块(TCA)。SCA 使用自注意力捕捉空间特征联系，用 1D 卷积提取时间特征。TCA 通过自注意力获取时间特征，用 2D 卷积学习空间特征。吴丽君等人提出通道结合时间模块，通过调整池化层和卷积层的顺序,保留更多的有效通道信息和时间信息。

2.2效率优化深度模型

时态卷积模型具备时间建模的同时，彰显了较不错的效率优势。高效性是AR模型的重要指标，双流CNN中光流在存储和计算上是昂贵的，3D CNN参数量和计算量较大，因此关于AR的效率优化任务得到开展。

2.2.1输入数据优化

在输入帧方面，Wang 等人指出不是所有视频帧都包含有用信息，因此基于双流 CNN 提出均匀采样的时间段网络(TSN)对视频帧均匀采样以提升效率。TSN 降低了信息冗余，以较低代价实现了端到端学习。关键帧挖掘框架放弃随机策略，通过帧打分采样关键帧，但增益并不明显。针对光流不易计算问题，FlowNet、FlowNet2.0基于神经网络从图像中预测光流场，Piergiovanni 等人基于 TVL1 光流提出模拟光流的流卷积层，实现对光流迭代参数的端到端学习。Zhang 等人通过运动边界的小位移解除对光流的依赖。

2.2.2时空分解三维卷积

Tran 等人提出的R(2+1)D，是和 P3D-A 类似的先 2D 卷积后 1D 卷积结构。但R(2+1)D 利用效率优势增加通道数，准确率较 R3D 得到提升。S3D[47]采用 Top-heavy 方式简化特征量，优化了效率。近期，Sudhakaran 等人[48]提出 3D 时空分解的空间门控模块(GSM)，GSM 可通过时间自适应寻找特征并组合，几乎不需额外参数和计算。

2.2.3深度分离三维卷积

MFNet[49]基于 ResNet 和深度分离卷积思想，将 ResNet模块切分为多纤维 ResNet 模块。实验证明 MFNet 计算量较I3D 和 R(2+1)D 分别减少了 9 倍和 13 倍。通道分离卷积网络(CSN) [50]基于深度分离卷积，在 3D ResNet 模块上设计了三种 Bottleneck 结构，与 R(2+1)D 相比计算量减少了 2-3 倍。
分组时空聚合(GST)基于深度分离对 P3D 改进，对不同通道分别进行空间和时间操作以提升效率。

2.2.4混合2D和3D卷积

MiCT[52]在 3D卷积后串联 2D CNN 延伸深度，另外并行 2D CNN 避免深度增加造成的梯度消失和训练误差，有效控制了 3D CNN 复杂性。ARTnet[54]基于双流思想，双流分别配置 2D 和 3D 卷积提取空间和时间特征。SlowFast网络类似于 ARTnet 的双流路径，但 SlowFast 设计了慢-快路径。SlowFast 需要设置不同帧率，且事先定义不同帧率并不实际。刘钊等人为了降低 3D CNN 的参数量提出了时域零填充卷积网络，其先以时域不填充的方式使用 3D 卷积提取时空信息，然后利网络重组结构将 3D 卷积变为 2D 卷积来进一步提取特征。

2.3长期特征捕获深度模型

前文模型提取的是短期动作特征，对于起止间隔较长的动作(如跳高和跳远)识别效果较差。长期时间卷积(LTC)堆叠更多视频帧增强长期特征性能，FOF、FCF叠加多个表示流层捕获更长时间特征。但这些方法算量较大，并且长间隔帧间关系易丢失，因此研究者针对如何捕获长期行为特征的问题进行了研究。

2.3.1全局均匀采样

Lan 等人将特征聚合成全局特征后，在相同训练数据上训练出映射函数，从而将全局特征映射到全局标签。ActionVLAD将双流时空特征做池化聚合，实现了全局特征的整合。Diba 等人将采样特征融合进行时间线性编码(TLE)，捕获长时间动态过程。Wang等人基于TSN提出了时序差分网络(TDN)，TDN设计了基于不同特征的通道注意力增强方法，实现对段间运动变化信息的增强。

2.3.2长短时记忆网络

Ng 等人先使用 2D CNN 提取空间特征，再输入 LSTM 进行融合实现时序特征提取。在此基础，长期递归卷积网络(LRCNs)进行了端到端训练的优化工作。TSLSTM将特征矩阵划分为若干时间段，分别平均或最大池化汇集，按顺序输入 LSTM 层。I3D-LSTM基于 I3D，对3D CNN 和 LSTM 的结合工作作出尝试。Li 等人将 LSTM的权重点积改成卷积运算，证明 Conv-LSTM 较 LSTM 更有利于注意力机制发挥。

2.3.3Transformer

Wang 等人基于自注意力机制提出了非局部神经网络(NLNN)，NLNN 能够计算任意两个时空位置间的关系，从而快速捕获长期特征。 Neimark 等人提出了基于CNN+Transformer 的 AR 模型 VTN，其利用 2D CNN 提取特征后，再通过 Transformer 结构关注长期信息。UniFormer基于时空自注意力，分别在浅层和深层 CNN 学习局部和全局标签相似性，来解决时空冗余和依赖关系，在计算和准确性之间取得了更好的平衡。ViViT基于 ViT完全摈弃 CNN，使用纯 Transformer进行 AR 任务。ViViT 将视频构建为一组时空标签和时空位置编码后，作为 Transformer 的输入进行分类任务。MViT基于 ViT 创建多尺度特征金字塔，首先在高分辨率下建模低层次视觉信息，后来在低分辨率下建模复杂高维特征。Li 等人对 MViT 作出改进，分解了相对位置嵌入和残余池连接。由于视频帧之间存在较大的局部冗余和复杂的全局依赖性，VidTr和 STAM-32受卷积分解启发，基于ViT 提出可分离注意分别执行空间注意和时间注意，减少了编码的计算消耗。BEVT[84]开展了 BERT 预训练工作用于 AR 任务，它采用解耦设计首先对图像数据进行掩码图像建模，然后通过权重共享对图像和视频数据进行联合掩码图像建模和掩码视频建模。BEVT 简化了 AR Transformer 的学习，并且保留了从图像中学习的空间知识。Alfasly 等人采用 BERT 构建语义音频视频标签字典(SAVLD)。SAVLD 将视频标签映射到其最相关的音频标签，然后与预训练的音频多标签模型在训练阶段共同估计视听模态的相关性。Zellers 等人设计了适用于所有模式和时间步长的联合编码器(Transformer)，通过向联合编码器提供视频帧以及单词或音频的序列级表示，以预测数据内容。