Spatio-Temporal Inception Graph Convolutional Networks for Skeleton-Based Action Recognition
时空初始图卷积网络用于基于骨骼的动作识别
CVPR2020
邻接矩阵的拓扑是建模输入骨骼相关性的关键因素。先前方法主要集中于图拓扑的设计/学习。但是一旦了解了拓扑,网络的每一层中将仅存在一个单比例特征和一个转换。已经证明多尺度信息和多组转换在卷积神经网络(CNN)中非常有效,但是尚未在GCN中进行研究。原因是,由于图形结构的骨架数据与常规图像/视频数据之间存在间隙,因此将这些见解嵌入到GCN中非常具有挑战性。文章重新发明了GCN中的分割变换合并策略以进行骨架序列处理,为基于骨架的动作识别设计了一个简单且高度模块化的图形卷积网络体系结构,网络是通过重复一个构建块来构建的,该构建块聚集了来自空间和时间路径的多粒度信息。
deep neural decision forests是具有学习拆分功能的树木-图案中多分支网络。
GoogLeNet使用一个inception模块在构建块的不同路径中引入多尺度处理,生成的多尺度特征是通过串联合并的。
ResNet使用residual learning框架,其中输入和卷积的输出的标记映射通过元素添加聚合。
ResNeXt设计一个构建模块,聚合一组变换。
DenseNet将所有前一层的特征映射馈送到当前层,并且该层的特征映射被用作后续所有层的输入。转换层旨在将所有层的特征映射合成一个密集的块中所有层的特征映射。Zhaofan Qiu, Ting Yao, and Tao Mei. 2017. Learning spatio-temporal representation with pseudo-3d residual networks. ICCV, 5533–5541.在邻接特征映射分解3×3×3的卷积为空间域1×3×3的卷积过滤器和时间连接3×1×1连接。
LocalCNN:使用本地操作作为基因构建块用于在任何层中合成全局和局部信息。在local path,Jiwei Yang, Xu Shen, Xinmei Tian, Houqiang Li, Jianqiang Huang, and Xian-Sheng Hua. 2018. Local convolutional neural networks for person re-identification. In ACM Multimedia. 1074–1082.使用采样模块从输入中来提取本地区域,设计特征提取模块和特征融合模块来转换和聚合特征。
邻接图的拓扑是用与建模输入骨架的相关性的关键因素。SOTA:NAS-GCN、2s-AGCN、稀疏的图形回归,主要关注图形拓扑的设计和学习。然而一旦形成图形,网络的每层只存在单个单个刻度和一个变换,对提取和合成不同水平不同路径的不同尺度和转换的信息有限制。
基于GCN的骨干卷积神经网络中的split-transform-merge策略的成功。将CNN中split-transform-merge策略应用于GCN,文章设计了提取和多尺度空间图卷积模块和一个运动图卷积模块来实现从多个尺度和图形数据上的转换中提取和合并功能,并提出一种基于骨架的动作识别的简单图卷积骨干架构。
GCN广泛应用于不规则数据,关键挑战是定义对图形的convolutions,这是由于无序图数据而困难。构建GCN的原理主要遵循空间透视或光谱观点。空间透视方法直接在图形顶点和其邻居上执行卷积,然后基于手动设计的规则归一化输出。光谱GCNS通过曲线图Laplacian方法将曲线域转换为光谱域,然后在光谱域上施加光谱滤波器。Chebyshev扩展用于近似图形傅立叶变换,并且图表卷积通过Chebyshev转换在骨架数据上的加权求和很好地近似。
backbone CNN的拆分变换合并策略用与GCN,并在GCN中重新发明分割变换合并策略,以处理每一层中的时空骨架序列。对于每一层,输入被分为三个路径:用于空间特征的空间路径,用于连续特征的时间路径以及用于重用输入特征的剩余路径。
- 空间路径(称为空间起始)分为四个分支,将1阶到4阶邻接采样应用为具有1x到4x跃点连接的四组图变换,接着是具有1×1卷积,批归一化和ReLU的指定图转换。
- 时间路径(称为时间起始)由两组转换组成。一组是跨连续帧的相同关节的位置特征的直接图卷积,另一组是跨连续帧的相同关节的运动特征的图卷积。
- 这是关节的运动特征首次用于基于骨骼的动作识别中。
- 最后,在合并阶段,首先将空间路径和时间路径的输出进行级联,并以1×1卷积进行融合。然后,通过求和来汇总三个路径的特征。整个块与CNN中的起始模块类似,因此被称为时空起始。
- 时空初始图卷积网络(STIGCN):仅需要原始骨架数据作为输入,克服了SOTA从不同级别不同路径提取和合成不同规模和转换信息的最新方法的局限性。
- 重新改进了GCN中分割转换合并策略来处理骨架序列克服CNN和GCN之间的卷积运算的差距。
- 与简单地创建更宽的GCN相比,增加变换集的数量increase the number of transformation sets是获得准确性的更有效方法。文章希望这有助于基于GCN的主干的迭代以进行时空序列分析。
spatio-temporal inception block:
图laplacian L = I n − D − 1 / 2 A D − 1 / 2 L=I_n-D^{-1/2}AD^{-1/2} L=In−D−1/2AD−1/2, D i j = ∑ j A i j D_{ij}=\sum_jA_{ij} Dij=∑jAij用于傅里叶变换。 F o u t = g θ ( L ) F i n = U g θ ( Λ ) U T F i n F_{out}=g_\theta(L)F_{in}=Ug_\theta(\Lambda)U^TF_{in} Fout=gθ(L)Fin=Ugθ(Λ)UT