Temporal Graph Modeling for Skeleton-based Action Recognition
CVPR2020
基于骨架的动作识别的时间图建模
GCN将骨架数据建模为图形,骨架序列的时间动态在识别任务中传达了重要信息。对于时间动态建模,基于GCN的方法仅堆叠多层一维局部卷积以提取相邻时间步之间的时间关系。随着大量局部卷积的重复,由于信息稀释,具有不相邻时间距离的关键时间信息可能会被忽略。
文章提出了一种时间增强图卷积网络Temporal Enhanced Graph Convolutional Network (TE-GCN)来解决此限制——构造时间关系图以捕获复杂的时间动态。具体而言,构造的时间关系图显式地建立语义相关的时间特征之间的连接,以对相邻时间步和非相邻时间步之间的时间关系建模。同时,为了进一步探索足够的时间动态,设计了多头机制来研究多种时间关系。
一个普通的动作包含不同的时间步长。只有几个关键时间步长与相邻或不相邻的时间距离之间的相关性可能有助于动作识别。在时间建模中,关键时间步长之间的相关性,尤其是在不相邻的时间距离中,应该以一种灵活的方法来明确利用。
- Temporal Enhanced Graph Convolutional Network (TE-GCN)以在时间维度上构建图结构,构造时间关系图以直接捕获相邻时间步和非相邻时间步之间的时间动态——在每个时间关系图中,节点表示时间特征,而边缘表示时间关系。对于边缘构造,设计了两个变换函数,即计算的特征和学习的特征,以计算时间特征之间的相关性
- multi-head TE-GCN探索不同时间步长之间的多种时间关系,多头时间增强图卷积聚合了这些多种类的关系,并能够捕获非相邻时间步长的足够的时间关系以进行动作识别。
- 还采用多流TE-GCN来探索多种模式(关节,骨骼的空间信息及其相应的运动信息),以进一步提高性能。
人骨骼表示为图 G = ( V , E ) G=(V,E) G=(V,E), V V V是J个人体关节集合, E E E表示人体骨骼边缘,骨架图相邻矩阵 A ∈ R J × J , A i j ∈ { 1 , 0 } A\in{\Bbb R}^{J×J},A_{ij}\in\{1,0\} A∈RJ×J,Aij∈{ 1,0},骨架帧的序列表示为特征张量 X ∈ R C × T × K X\in{\Bbb R}^{C×T×K} X∈RC×T×K,C是坐标维,T是序列中骨架帧的数量,J是人体关节总数。
每个图卷积层由spatial graph convolution block (SG-block)和temporal convolution block (TC-block)组成,SG-block: f o u t s = ∑ k K s W k f i n ( Λ k − 1 2 A ~ k Λ k − 1