人体骨架的动力学传达出一个重要信息,它会有助于人类动作识别的研究。本文将介绍来自港中文的Sijie Yan团队所做的工作,他们的论文《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》发表在近期的AAAI上。
用于建模骨架的常规方法通常依赖于手工制作的身体部位或遍历规则,因此导致表达能力有限和泛化困难。在本项工作中,港中文团队提出了一种动态骨架的新模型,称为时空图卷积网络(ST-GCN),它通过自动从数据中学习时空模式,超越了先前方法的局限。这种表述不仅产生更强的表达能力,而且具有更强的泛化能力。在Kinetics和NTU-RGBD这两个大型数据集上,与主流方法相比,它取得了实质性的改进。
![66ab494f2da6b9f26005f52cb2cd3386.png](https://i-blog.csdnimg.cn/blog_migrate/dbec0c8f9a1f5d293157d218cca74ceb.png)
港中文团队论文的主要内容
![66ab494f2da6b9f26005f52cb2cd3386.png](https://i-blog.csdnimg.cn/blog_migrate/dbec0c8f9a1f5d293157d218cca74ceb.png)
1 Introduction
近年来,人类动作识别已成为活跃的研究领域,因为它在视频理解中起着重要作用。一般而言,人类行为可以从多种形式中识别,例如外观、深度、 光流和人体骨架。在这些方式中,动态的人体骨架通常传达重要的信息,这些信息是其他信息的补充。但是,与外观和光流相比,动态骨架的建模受到的关注相对较少。在这项工作中,团队系统地研究了这种模式,目的是开发一种有效的方法来对动态骨架建模并利用它们进行动作识别。
动态骨架模态可以由人类关节位置的时间序列,以2D或3D坐标的形式自然地表示,然后可以通过分析其动作模式来识别其动作。早期,使用骨架进行动作识别的方法只是在各个时间步上使用关节坐标来形成特征向量,然后对其进行时间分析。但这些方法的能力有限,因为它们未明确利用关节之间的空间关系,