论文浏览(32) Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

最新推荐文章于 2022-12-18 21:53:25 发布

清欢守护者

最新推荐文章于 2022-12-18 21:53:25 发布

阅读量557

点赞数 1

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108139035

版权

98 篇文章 20 订阅

订阅专栏

人体行为识别使用的数据源很多，有RGB图像、深度图、光流、人体骨架等。在这些数据源中，动态人体骨架能够传递重要信息，作为补充。但是，对于动态骨架建模相关的研究比较少。
之前对动态骨架建模的主要方式是：
- 使用关键点的坐标信息，结合不同时间点的数据，构建特征向量。这类主要的问题在于，没有直接利用这些特征点之间的空间关系，而空间关系对于行为识别来说非常重要。
- 利用关键点之间连接关系。这类方法的主要问题在于，特征一般是手工提取的，或者指定了一些空间规则，泛化能力差。

使用图神经网络来对人体动态骨架进行建模。
- 模型输入是若干时间点的人体骨架。骨架信息包含两种连接，一种是某一时间点某个人自身关键点的连接（Spatial Edges），一种是相邻时间点同一位置关键点之间的连接（Temporal Edges）。
- 这种结构的优势：不需要进行手动特征提取。
ST-GCN 总体流程如下图
- 数据输入可以是直接从设备读取，也可以通过姿态估计算法获取。
- 数据输入是通过不同时刻的骨架数据构建 spatial temporal graph。
- 网络本身通过若干时空图卷积实现。
- 最后通过特征提取+fc+softmax实现分类。
其他一些细节在研究代码的时候再说，包括：
- 骨架图构建
- 空间图神经网络构建
- Partition Strategies（分区策略）

一些实验设置：Kinetics数据集本身没有关键点信息，所以使用OpenPose在RGB上提取关键点，然后作为ST-GCN的输入。
效果如下
简单说下情况
- Kinetics-400 上，基于关键点的效果比基于RGB的差很多（I3D 57% VS ST-GCN 30.7%）
- 为了说明ST-GCN的优势，选择了30类与人体姿态息息相关的行为单独检测，终于，ST-GCN的效果比RGB好了……
- 虽然单个模型的效果RGB比FLOW/ST-GCN好很多，但如果进行模型集成，效果比RGB好一些。ST-GCN与RGB集成的效果比FLOW与RGB集成的效果好一点。

关注