【论文笔记】ST-TR:Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks

Skeleton-based Action Recognition via Spatial and Temporal Transformer Networks

基于骨骼通过时空变换网络的行为识别


未解决的问题:有效编码3D骨骼下面的潜在信息,尤其是从关节运动模式以及其相关性中提取有效信息时,诸如“拍手”之类的动作在人体骨骼中未链接的身体关节之间的相关性(例如,左手和右手)也被低估了。

时空变换网络ST-TR:

  • Transformer self-attention operator。基于双流的Transformer-based模型,空间时间维度都采用了self-attention对关节之间依赖关系建模

  • spatial self-attention(SSA):用于了解不同身体部位之间的帧内交互;动态建立骨骼关节之间的链接,代表人体各部分之间的关系,有条件地取决于动作,并且独立于自然的人体结构

  • temporal self-attention(TSA):用于对帧内相关性进行建模;研究关节随时间的动力学

使用改良的变换自注意运算符:

在这里插入图片描述

Sangwoo Cho, Muhammad Maqbool, Fei Liu, and Hassan
Foroosh. Self-attention network for skeleton-based human
action recognition. 2020. 2, 9, 10还提出了一个自我注意网络(SAN)来提取长期语义信息。但是,由于它专注于时间分割的片段,因此只能部分解决卷积的局 限性。

ST-GCN:

f o u t = ∑ k K s ( f i n A k ) W k {\bf f}_{out}=\sum_{k}^{K_s}({\bf f}_{in}{\bf A}_k){\bf W}_k fout=kKs(finAk)Wk

A k = D k − 1 2 ( A ~ k + I ) D k − 1 2 , D i i = ∑ k K s ( A ~ k i j + I i j ) {\bf A}_k={\bf D}_k^{-\frac{1}{2}}(\tilde{\bf A}_k+{\bf I}){\bf D}_k^{-\frac{1}{2}},D_{ii}=\sum_{k}^{K_s}(\tilde{\bf A}_k^{ij}+{\bf I}_{ij}) Ak=Dk21(A~k

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值