shift-GCN：Skeleton-Based Action Recognition with Shift Graph Convolutional Network

最新推荐文章于 2024-06-19 23:15:06 发布

KrystalKarlieKarina

最新推荐文章于 2024-06-19 23:15:06 发布

阅读量1.3k

点赞数 1

分类专栏：论文学习

本文链接：https://blog.csdn.net/lovekkarlie_/article/details/115536729

版权

CVPR2020

shift-GCN

主要特点：大幅度减少计算成本

背景：GCN-based取得成效，but GCN-based方法缺点：1）计算成本高；2）空间图和时间图感受野都是启发式预定义的，不灵活；although使用增量自适应模块增强空间图的表现力但是仍受到regular GCN的限制。

受到shift-CNN启发，我们提出shift-GCN，使用轻量级的移位操作作为2D卷积的替代，并且可以通过简单地改变移位距离来调整感受野。提出的Shift-GCN由spatial shift GCN和temporal shift GCN两部分组成。

spatial skeleton graph：

对于空间骨架图，作者提出了一种空间移位图操作，将信息从相邻节点转移到当前卷积节点，而不是使用三个具有不同邻接矩阵的GCN来获得足够的感受野。通过将空间移位图操作与点卷积交错，信息在空间维度和通道维度上混合。具体来说，我们提出了两种spatial shift graph operation:
- local shift graph operation：
  
  感受野receptive field由身体物理结构指定，不同的节点具有不同数量的邻居，因此分别为每个节点设计了local shift graph operation
  
  缺点：
  - 感受野是启发式预定义和局部化的，不适合建模骨骼之间的多样关系
  - 由于不同节点的移位操作不同，一些信息被直接丢弃
- non-local shift graph operation：为了解决local的两个缺点，每个节点的感受野覆盖整个骨架图并自适应地学习节点之间的关系
temporal skeleton graph：通过在时间维度上连接连续帧来构建。
- naive temporal shift graph operation：感受野是手动设置的。对于时间建模不是最优的：不同层可能需要不同的时间感受野；不同数据集可能需要不同的时间感受野
- adaptive temporal shift graph operation：自适应地调整接收场，效率高

本文工作：

提出了两种spatial shift graph operation用于空间骨架图建模：non-local spatial shift graph operation在计算上是有效的，并且取得了很强的性能；
提出了两种temporal shift graph operation用于时间骨架图建模：adaptive temporal shift graph operation可以自适应地调整接收场，并且在计算复杂度上优于常规时间模型；
在基于骨架的动作识别的三个数据集上，本文提出的shift-GCN算法的计算量比现有的方法少10倍以上。

在这里插入图片描述

（二）预备工作

GCN-based skeleton action recognition
- 空间图形卷积：一般将邻接矩阵划分为三个分区：向心组、节点本身、离心组
- 时间图形卷积：使用时间维度上regular 1D卷积作为时间图卷积，内核大小通常为9。
- 缺点是：(1)计算量太大。(2)感受野受限，表达能力受到规则GCN结构的限制。
shift-CNN

输入特征 ${\bf{F}\in}{\Bbb{R}}^{D_F×D_F×C}$ 其中 $D_F$ 是特征图大小， $C$ 是信道大小。正则卷积核是张量 ${\bf{K}\in}{\Bbb{R}}^{D_K×D_K×C×C'}$ ， $D_K$ 是核的大小。