基于骨架的动作识别:ResGCN
这是ACMMM2020的一篇文章,题目为:Stronger, Faster and More Explainable: A Graph Convolutional Baseline for Skeleton-based Action Recognition
原文地址
CODE PA-ResGCN
一作 Yi-Fan Song 也曾提出RA-GCN(Richly Activated Graph Convolutional Network)的两个版本,分别发在了IEEE ICIP2019 和 IEEE TCSVT2020.
ResGCN论文解读
ResGCN整体框架
从abstract中我们可以关注到几个点:SOTA;Model;Dataset 我们就这样一步步分析这篇论文的贡献。
首先来看模型的效果吧,
分别在NTU RGB+D 60 & 120 Dataset 上取得了SOTA成果。可以看到,在高准确率情况下参数也是较少的。作者还给出了高性能模型PA-ResGCN & 轻量模型ResGCN,最后在消融实验中将详细说明。
就Model而言,ResGCN主要由三个部分组成,分别为:MIB(早起融合多输入分支)、ResGCN(残差GCN---->轻量)、PartAtt(发现整个动作序列上最基本的身体部分---->提高可解释性与稳定性)。
基于骨架的动作识别相关工作
首先,骨架数据是多个骨架关节的3D坐标的时间序列,可以通过姿态估计方法从2D图像中估计,也可以通过Kinect等多模态传感器直接收集。
基于骨架的动作识别主要可以分为两个阶段。一、早期,传统的方法是采用递归神经网络RNNs或基于CNNs的模型来分析骨架序列。例如使用分层双向RNN来捕获不同身体部位之间的丰富依赖关系;一种简单有效的CNN架构用于修剪骨架序列的动作分类;虽然CNN模型轻量,但这一类模型性能较差。二、近年来,由于描述结构数据的极大表达能力,提出了基于图形的模型进行动态骨架建模。最早的一篇可以追溯到2018年提出的ST-GCN(the Spatial Temporal Graph Convolutional Networks)。基于图卷积的相关文章在上一篇文章中有归纳过,可见基于骨架的动作识别----论文总结,这次主要是复现了这一篇ResGCN的文章。
针对现有模型的高复杂度问题,
作者主要采取了三种方式来解决这些问题:Multiple Input Branches(MIB)、Residual GCN(ResGCN)、Part-wise Attention(PartAtt)。首先,提出了早期融合多输入分支(MIB)架构,从骨架数据中获取丰富的空间配置和时间动态,其中三个分支分别包括关节位置(相对和绝对)、骨骼特征(长度和角度)和运动速度(一个或两个时间步骤),随后在整个模型的早期阶段进行融合,以降低模型的复杂性;其