A Spatio-temporal Transformer for 3D Human Motion Prediction

A Spatio-temporal Transformer for 3D Human Motion Prediction

Author: Emre Aksan、Peng Cao
Chinese Title: 《用于3D人体运动预测的时空Transformer》
Classification: Motion Prediction
Progress: Finished
Publication: ArXiv 2020
Reading Date: October 15, 2021

Intro:

短范围预测已经取得了很多进步,但是长范围预测仍然非常具有挑战性。

目前的大多数工作通常存在奔溃成静态姿势的情况,这表明缺乏捕捉长期依赖性的能力。

常用的方法随着时间积累,误差不断增大,最终导致奔溃变成一个非正常姿态,可能是因为数据与模型之间的分布差异导致的。

本文提出包含两个块的时空transformer,空间注意力块从当前时刻戳的关节特征中提取信息。时间注意力块侧重从单个关节的先前记录中提取信息。对序列的双重自我关注允许模型直接访问过去信息,从而明确地捕捉依赖关系。

在这里插入图片描述


Contributions:

  • 有能力生成真实的长范围预测结果(可达到20s)且打败了短范围预测的SoTA记录

Related Works:

非循环模型: 通过用密集层的滑动窗口在运动序列上。Li 等人在seq2seq框架中使用卷积代替RNN来提升长期依赖性。后来提出的GCN是对姿态的时序猖狂进行操作,并一次性产生整个输出。本文的模型完全是最回归,因此很容易部署来生成任意长的序列。

循环模型: RNNs之前主宰了3D动作的建模任务。ERD则采用了LSTM控制门在隐空间。后来也有了在解码器的输出输出上应用seq2seq和跳跃连接来解决种子和预测之间的过渡问题,同时也提出用预测值来训练模型以缓解暴露偏差的问题。


Methods:

大致方法流程为:将骨架分解成关节点,把所有关节投影到更高维空间,自注意力块识别关节间和关节内的关系,最后把预测出的关节组装回骨架。

  1. Spatial-temporal Transformer

在这里插入图片描述

**关节点映射:**通过一个线性层把所有节点映射到n维空间,再通过正弦位置编码对节点映射进行编码。

**Temporal Attention:**根据同一节点的历史信息来更新特征信息,通过多头注意力进行计算,其中在缩放点乘的结果后需要加入一个M掩码来防止信息泄漏到后面,最后每个头经过softmax以及多头加权后投影回表示空间。

A t t e n t i o n ( Q , K , V , M ) = s o f t m a x ( Q K T D + M ) V = A V Attention(Q,K,V,M)=softmax(\frac{QK^T}{\sqrt{D}}+M)V = AV Attention(Q,K,V,M)=softmax(D QKT+M)V=AV

**Spatial Attention:**引入空间注意力来学习动态和关节点之间的依赖性。

**Aggregation:**两个Transformer块是平行计算的,最后结果进行加和喂入前馈网络,再跟一个Dropout和LN。把这部分堆了L层用于联系更新和修正预测。

**Joint Predictions:**最后把经过L个注意力层的D维映射投影回M维关节角表示空间。

在这里插入图片描述


Results:

Datasets: AMASS

  • Quantitative Evaluation

    在这里插入图片描述
    在这里插入图片描述

    短期预测的结果效果基本还是很不错的,尤其在Euler指标下的改进最大。

    长期预测采用了新的评估方法:PS度量,用来衡量预测分布和测试分布之间的差异性以及功率谱的熵, 结果显示也是很不错的。

  • Qualitive Evaluation

在这里插入图片描述

在长周期运动上表现良好,可以预测18s的序列,而在非周期运动会局限在几秒内。


Conclusion:

  • 提出一个st-tansformer网络用于3D人体运动的生成式建模任务。
  • 提出一个创新框架可以学习节点内和节点间的依赖性通过其解耦的时空注意力块。
  • 结果表明了自注意力概念对于长短期预测都是非常有效的
  • 同样也表明了注意力机制可以用于获取模型的行为。
  • 最后消融实验正面其模型可以用于长序列的数据集,例如AMASS。
时空动作检测(spatio-temporal action detection)是一项计算机视觉任务,旨在从视频片段中准确地检测和识别出发生的动作。与传统的动作识别任务相比,时空动作检测旨在通过不仅仅检测动作在空间上的出现,还要捕捉动作在时间上的变化。 时空动作检测往往涉及以下几个主要步骤: 1. 帧级特征提取:首先,利用现有的特征提取技术,从每个视频帧中提取稳定而有信息量的特征,以捕捉空间信息。 2. 时间建模:接下来,通过对连续帧之间的变化进行建模,来捕捉动作的时间相关性和动态信息。这可以通过各种技术,如光流,差分图和循环网络等来实现。 3. 动作检测:在获得空间和时间特征后,利用学习算法(如深度神经网络)来进行动作检测。这通常通过将时空特征输入到分类器,然后根据预先训练的模型推断动作类别和位置。 4. 时空定位:最后,定位动作在视频中的准确位置。这可以通过在时间上进行滑窗检测,并使用非极大值抑制来抑制重叠检测结果来实现。 时空动作检测在很多领域具有广泛应用,比如视频监控、智能交通、运动分析和人机交互等。通过准确地检测和识别动作,我们可以实现更精确的行为理解和动作预测,从而为许多实际应用带来便捷和效益。然而,时空动作检测仍然存在一些挑战,如动作遮挡、背景干扰和不同尺度的动作等问题,所以该领域的研究仍在不断发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值