论文浏览(32) Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition


0. 前言


1. 要解决什么问题

  • 人体行为识别使用的数据源很多,有RGB图像、深度图、光流、人体骨架等。在这些数据源中,动态人体骨架能够传递重要信息,作为补充。但是,对于动态骨架建模相关的研究比较少。
  • 之前对动态骨架建模的主要方式是:
    • 使用关键点的坐标信息,结合不同时间点的数据,构建特征向量。这类主要的问题在于,没有直接利用这些特征点之间的空间关系,而空间关系对于行为识别来说非常重要。
    • 利用关键点之间连接关系。这类方法的主要问题在于,特征一般是手工提取的,或者指定了一些空间规则,泛化能力差。

2. 用了什么方法

  • 使用图神经网络来对人体动态骨架进行建模。
    • 模型输入是若干时间点的人体骨架。骨架信息包含两种连接,一种是某一时间点某个人自身关键点的连接(Spatial Edges),一种是相邻时间点同一位置关键点之间的连接(Temporal Edges)。
    • image_1eg6e67bv1cfjl5o1q049rk1qtc9.png-131kB
    • 这种结构的优势:不需要进行手动特征提取。
  • ST-GCN 总体流程如下图
    • 数据输入可以是直接从设备读取,也可以通过姿态估计算法获取。
    • 数据输入是通过不同时刻的骨架数据构建 spatial temporal graph。
    • 网络本身通过若干 时空图卷积 实现。
    • 最后通过特征提取+fc+softmax实现分类。
    • image_1eg6e726ede53tppi91rdg191gm.png-155.6kB
  • 其他一些细节在研究代码的时候再说,包括:
    • 骨架图构建
    • 空间图神经网络构建
    • Partition Strategies(分区策略)

3. 效果如何

  • 一些实验设置:Kinetics数据集本身没有关键点信息,所以使用OpenPose在RGB上提取关键点,然后作为ST-GCN的输入。
  • 效果如下
    • image_1eg6fbr8e1g3mti81dv2dgk1ppe13.png-226.7kB
  • 简单说下情况
    • Kinetics-400 上,基于关键点的效果比基于RGB的差很多(I3D 57% VS ST-GCN 30.7%)
    • 为了说明ST-GCN的优势,选择了30类与人体姿态息息相关的行为单独检测,终于,ST-GCN的效果比RGB好了……
    • 虽然单个模型的效果RGB比FLOW/ST-GCN好很多,但如果进行模型集成,效果比RGB好一些。ST-GCN与RGB集成的效果比FLOW与RGB集成的效果好一点。

4. 还存在什么问题&有什么可以借鉴

  • 不知道整体inference time如何。

  • 所谓的model ensemble,值得就是在最终probs上取平均吗

  • NTU-RGB+D数据集如果使用I3D这些方法,效果如何。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值