人体动作识别评价综述学习
学习论文:
[1]宋震,张宇姝,杨刚.人体动作识别与评价综述[J].中国传媒大学学报(自然科学版),2021,28(03):58-65.DOI:10.16196/j.cnki.issn.1673-4793.2021.03.009.
1. 动作识别和动作评价
1.1 动作识别
定义:是指对给定的动作序列数据(视频或三维动作序列)进行分析,从中识别并判断出其包含的动作类别
1.2 动作评价
定义:是对某一标准动作的完成质量进行评价,其多应用于体操、划船、舞蹈等专业领域的动作评判和动作训练。其往往需要在动作识别的基础上进行,通过专家知识对专业领域动作的规范性、流畅性、艺术性进行判断。
1.3 差别
动作识别可以看作一个多分类问题,主要在于定量地比较输入数据和标准参考的相似性,然后输出动作类型的标签;在动作评价中,则并非单纯地进行数据相似性判定,而是侧重于在专家知识的指导下,对专业领域动作的规范性、流畅性、艺术性甚至是人体肌肉发力程度的分析评价,衡量的是一种更深层次、更具专业性质的相似度
1.4 技术基本路线
数据对象、数据预处理、特征提取、动作识别的分类方法和动作评价研究
2.技术路线
2.1 数据类型
主要使用的两种数据是视频数据和3D骨骼数据
2.1.1 视频数据
相比于图像数据,视频数据多出了一个时序维度
提取特征的两种思路:
-
直接抽取并分类序列的时空特征的方法
-
提取骨骼信息(2D或3D骨骼信息)进行训练
2.1.2 3D骨骼数据
通过特定的动作捕捉设别直接捕捉3D骨骼数据,也即是骨骼动画数据
2.2 数据预处理
2.2.1去噪
对于3D骨骼数据,其基本不受采集环境的影响,噪声较小,基本不需要去噪,而对于视频数据,其存在信息不稳定或者冗余的现象,所以必须进行处理。
常见方法:
- 空洞修复
- 图像平滑(马尔可夫随机场)
2.2.2 时空对齐
时空对齐问题:不同人在运动时的快慢是不同的,为使得比对的关键帧对应起来,必须将两个视频的时空进行对齐。
骨骼标准化处理:空间上,不同人的骨骼大小不同,这对某些参数的比较会造成干扰,比如关节角度、角速度等,所以要先进行骨骼标准化处理
-
对齐时间序列:固定滑动窗口,引入时间锚点的动作点概念
-
空间动作对齐:身体之间(由肩部和躯干 3D 位置提取的旋转偏移)
3. 动作识别特征描述方法
3.1视频数据特征
3.1.1 局部特征描述
一种由下到上的描述方式,是从特征点周围提取出有用的几何区域,并生成一个标识性的向量来代表这个区域的特征 。局部特征不容易受环境噪声、物体遮挡或者人体运动变化的影响,对缩放、平移和旋转等操作也具有较好的稳定性
3.3.2 全局特征描述
把识别目标当成一个整体描述,涵盖了人体信息,代表高层特征或语义。
3.2 3D骨骼数据的特征描述
3.2.1基于关节的描述符
基于关节的描述符旨在建立身体关节位置之间的相关性,考虑所有3D骨骼之间的两两成对距离。每个单独的特征值通过 K‑means 聚类为 5个组中的一个,并用二进制向量来表示每个聚类索引。(这里的5个组应该是对应身体5个部位)
缺点:这种描述符缺少时间信息,对动作的描述不够精确。
3.2.2 基于挖掘的描述符
基于挖掘的描述符指根据身体部位对动作的参与情况来区分动作类别,类似于数据挖掘,通过动作的部分关节子集与相关的动作进行关联(通常情况下动作涉及的关节子集是类似的)
3.2.3 基于动力学的描述符
基于动力学的描述符着重于将动作表示为关节三维轨迹的集合,可以更加清晰直观地描述骨骼的特征。
计算当前关节的关节位置和人体关节的速度和加速度等微分特性表征局部三维人体姿态
4. 动作识别分类方法
4.1传统方法
-
隐马尔科夫模型(HMMS)
一种与时序有关的,基于转移概率和传输概率的随机模型,系统当前所处状态的概率只与前一个时刻的状态有关,与其它历史状态条件无关
-
非线性SVM
4.2 深度学习方法
4.2.1CNN
4.2.2 双流网络
采用两个分支的网络架构,分别捕捉视频的空间和时间信息。
空域利用 RGB 图像作为输入提取外观特征
时域利用光流信息作为输入提取时序特征
然后通过多任务训练的方法对两个行为识别数据集进行分类,去除过拟合,进而获得更好的效果
5.动作评价
5.1特征描述
- 对于不同专业动作,每个身体关节起到的作用不同,可以根据专家知识给各关节分配权重,为动作评价打基础
- 将动作评价与大数据结合起来,这样一来,对每一个动作细节如何进行评价都有据可依,大大增加了动作评价的可靠性
- 对于某些纠正性的研究,可以自定义规则并给所有可能的错误制定标签,评价动作执行的正确性