Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks
基于骨骼通过时空变换网络的行为识别
未解决的问题:有效编码3D骨骼下面的潜在信息,尤其是从关节运动模式以及其相关性中提取有效信息时,诸如“拍手”之类的动作在人体骨骼中未链接的身体关节之间的相关性(例如,左手和右手)也被低估了。
时空变换网络ST-TR:
-
Transformer self-attention operator。基于双流的Transformer-based模型,空间时间维度都采用了self-attention对关节之间依赖关系建模
-
spatial self-attention(SSA):用于了解不同身体部位之间的帧内交互;动态建立骨骼关节之间的链接,代表人体各部分之间的关系,有条件地取决于动作,并且独立于自然的人体结构
-
temporal self-attention(TSA):用于对帧内相关性进行建模;研究关节随时间的动力学
使用改良的变换自注意运算符:
Sangwoo Cho, Muhammad Maqbool, Fei Liu, and Hassan
Foroosh. Self-attention network for skeleton-based human
action recognition. 2020. 2, 9, 10还提出了一个自我注意网络(SAN)来提取长期语义信息。但是,由于它专注于时间分割的片段,因此只能部分解决卷积的局 限性。
ST-GCN:
f o u t = ∑ k K s ( f i n A k ) W k {\bf f}_{out}=\sum_{k}^{K_s}({\bf f}_{in}{\bf A}_k){\bf W}_k fout=∑kKs(finAk)Wk
A k = D k − 1 2 ( A ~ k + I ) D k − 1 2 , D i i = ∑ k K s ( A ~ k i j + I i j ) {\bf A}_k={\bf D}_k^{-\frac{1}{2}}(\tilde{\bf A}_k+{\bf I}){\bf D}_k^{-\frac{1}{2}},D_{ii}=\sum_{k}^{K_s}(\tilde{\bf A}_k^{ij}+{\bf I}_{ij}) Ak=Dk−21(A~k