动作识别综述(Recent Advances in Video-Based Human Action)## 标题
动作识别综述(Recent Advances in Video-Based Human Action)
# 介绍:
动作识别可以应用于监督,机器人,卫生保健,视频搜索,人机交互。但是动作识别依然面对很多挑战,比如杂乱的背景,遮挡,视角变化,执行速度,摄像机运动
用于动作识别的数据集一般分为单视角,多视角,RGB-depth数据集。视频数据的时间信息对于动作识别非常重要
早期动作识别的SOTA方法都是使用手动建立的基于时空兴趣点计算的运动和肌理描述,后来使用从原始视频中计算出的特征,然后训练分类器。不过这种方法是基于问题的,也就是说只是应用于具体的问题,对于更广阔的真实世界来说很有挑战性。
基于深度学习的动作识别方法变得流行,因为它能够分层次地从多个层次学习特征,并自动地构建原始输入的高级表示。 深度学习使用一些诸如局部感知,权重共享,多卷积核,向下池化的方法,从图像的一部分而不是全部图像来学习局部特征,最终的识别结果由多个卷积层的结果决定。 比较流行的是CNN框架。
深度学习方法可以识别具有复杂结构的高级活动,它具有良好性能,特征提取的鲁棒性和泛化能力,这让它更加成功和流行。
人类活动分为四种:
姿态,动作,与物体的交互,群组活动
#数据集:
##单视角数据集:Weizmanndataset KTH dataset UCF sports Hollywood datasets
Hollywood datasets:This dataset recordedten actions and each action was performed by ten persons.
KTH dataset:KTH dataset contains six actions with four different scenarios,performed by twenty five actors
UCF sports:UCF sports dataset contains 150 sports motions consideringhuman appearance, camera movement, viewpoint change, illumination and background
Hollywood datasets:The Hollywood dataset proposeseight actions to address the challenges of occlusions, cameramovements and dynamic backgrounds
单视点数据集通常使用单个摄像机从某个不变的角度记录人类动作,而不需要摄像机移动。
最早的单视点数据集由魏茨曼研究所于2001年发布
##多视角数据集:
多视角数据集的优势在于,它们从不同的角度对3D人体形状进行建模,并且与单视点流相比,避免了遮挡问题
IXMAS dataset:contains 14 actions performed by 11 persons
i3DPost Multi-view dataset:Eight high definition cameras were used tocapture twelve actions performed by eight person
MuHAVi:They used eight non-synchronized camerasto capture 17 actions performed by 14 actors
Videoweb:four groups of actors perform actions, which were captured by
four to eight cameras tailored for group activity recognition.
CASIA Action dataset:focuses on interactionsbetween persons and it contains eight types of single personactions performed by 24 people and seven types of interactionscaptured by three static cameras from different angles
##深度和RGB数据集:
深度和RGB视频不仅包含视频帧,还包含称为深度图的特殊数据,用于测量对象从观察点的深度。
MSR-Action3D dataset:它包含由10名受试者执行的20种动作类型,每个动作执行两到三次。该数据集用于生成骨骼运动,可用于精确描述动作
DailyActivity3D dataset:包含16种活动类型
Multiview 3D event dataset: 包含三个Kinect相机从不同视点同时捕捉的RGB、深度和人体骨骼数据,由十个演员表演的十个动作类别组成
==Cornell ActivityDatasets ==:使用Kinect记录了人类活动的RGB-D视频序列。它有两个子数据集CAD-60和CAD-120,分别由60个RGB-D视频和120个RGB-D视频组成
#方法:
用于单视角数据集的方法是动作识别领域的基础,它的方法可以扩展到多视角数据集。
##单视角数据集方法:
CNN:可以直接从像素点学习到视觉模式,不需要预处理
CNN&RNN:第一步使用CNN学习时空特征,第二步使用RNN对序列进行分类
3D CNN:在输入的同一位置进行多个卷积操作,获得多个特征。生成多个通道(灰度gray,横坐标梯度(gradient-x),纵坐标梯度(gradient-y),x光流(optflow-x),y光流(optflow-y)),以对相邻视频帧中的每个通道执行卷积和二次采样。
Factor-ized spatio-temporal CNNs:处理不同层中的时间和空间核,可以减少网络的学习参数的数量,利用变换和置换算子,训练和推理策略以及稀疏度集中指数方案产生最终结果
LSTM:RNN的变体。它使用内存块来代替常规网络单元。LSTM的门神径决定何时记住、忘记或者输出该值
SNN:脉冲神经网络的工作原理与生物网络相似,该模型是一种前馈脉冲神经网络的分层结构,用于模拟两个视觉皮层区域:初级视觉皮层(VI)和中颞区(MT),以此来处理动作识别。它模仿VI和MT的工作机理,检测到运动能量之后,信息被VI和MT层处理。运动能量首先在VI层被SNN模型进行转换,然后MT单元根据VI和MT两层之间的映射关系汇集从VI单元接收的信息,特征是从由MT脉冲神经元产生的脉冲序列中提取的。最终输出由SVM分类器识别。
DBN:DNN的变体,它由多个隐藏单元层组成,层与层之间连接来学习用于动作识别的特征
DTD&DNN:首先从具有多个连续帧的原始数据中提取密集的轨迹,然后将轨迹投影到画布上。通过这种方式,他们可以将原始3D空间转换成2D空间并导入它们,因此降低了数据的复杂性。随后,他们将数据输入深度神经网络(DNN),该网络用于学习更宏观的密集轨迹表示
P-CNN:基于姿势的CNN]描述符被用于动作识别,该描述符基于人力姿势产生。输入数据分为五个部分。对于每一部分,从视频中提取两种帧,即RGB帧和flow帧。P-CNN特征由这两种帧生成,并分别在聚集和归一化阶段之后在CNN中处理。
##多视角,深度和rgb数据集方法:
MOCAP(motion captureinformation)&CNN:MOCAP广泛应用于深度和多视角视频的人体骨架预测。它使用CNN来识别局部模式,然后MOCAP信息的分析可以达到更好的分类精度。
RNN&LSTM:它根据人体结构将人体骨骼分为五个部分,并将它们分成五个子网,称为双向RNNs (BRNNs)。最后一个BRNN层采用LSTM神经元来克服消失梯度问题
多任务学习方法证明了它作为一种分层方法来学习几个任务以获取内在相关性的有效性
未来工作和讨论:
多视角动作识别还比较少被研究,每一流或许都可以使用一个网络去处理
数据集动作简单,是非情绪化的和有意的。
在单视角视频帧中分类多个运动也会是挑战,可以对数据预处理来提取输入,投入到多个网络中
综述链接: link.