Group-Skeleton-Based Human Action Recognition in Complex Events
一种新的基于GCN的算法GS-GCN,用于复杂事件中的动作识别,针对复杂事件挑战中大规模以人为中心的视频分析的解决方案。与仅考虑单个人的行为的常规方法不同,所提出的方法研究了不同人之间的潜在行为关系。使用多个MS-G3D从多个人中同时提取骨骼特征。由于近距离的人可以具有更强的动作关系,因此使用MLP将距离值嵌入到提取的特征中。经过特征融合步骤后,对焦点损失进行训练,以对不同的动作进行分类。第一个将群组骨架数据与GCN结合起来以进行动作识别。
现有skeleton-based忽视了不同人之间潜在的动作关系,而一个人的动作很可能受到另一个人的影响。
- group-skeleton-based:利用MS-G3D提取多人骨骼特征。除了传统关键点坐标外,文章也把关键点速度值输入到网络中以获得更好的性能。
- 用多层感知器MLP将参考人与其他人之间的距离值嵌入提取的特征中。
- 所有特征被送入到另一个MS-G3D来进行特征融合分类。
为了避免分类不平衡问题,网络进行有焦点损失的训练。
RGB图像提取空间特征在其他帧中可能丢失细节;直接使用RGB帧可能会引入来自不同背景和任务外观的干扰,这些对于动作分类来说可能是噪声。
人运动较大时光流序列容易受到遮挡问题影响。
skeleton-based:GCN可以有效获取不规则的骨架关键点并在时空域提取特征;没有考虑到视频中不同人物之间潜在动作关系。
首先检测视频中的任务并预测他们的姿势;然后将关键点位置和速度值输入MS-G3D提取特征,由于距离较近的人应该有较强的动作关系,还在提取的特征中嵌入了参照人与其他人之间的距离值。另一个MS-G3D融合所有功能。最后,通过全连通层输出分类结果。
-
Action Recognition Using Group-Skeleton Data
第 k k k个人的第 i i i个关键点的速度值 v i k v_i^k vik: v i k ( t ) = p i k ( t ) − p i k ( t − d ) v_{i}^{k}(t)=p_{i}^{k}(t)-p_{i}^{k}(t-d) vik(t)=pik(t)−pik(t−d),其中 p i k p_{i}^{k} pik是第 k k k个人的第 i i i个关键点的坐标, t t t表示帧索引, d d d表示计算关键点速度的帧间隔。参考人k=0。如果在较长时间间隔内某些关键点移回原始位置,d=3。将所有有效的 i i i, t t t的 p i k ( t ) p_i^k(t) pik