MotionBERT: A Unified Perspective on Learning Human Motion Representations

abstract

摘要音频(含kk音标)
We present(提出) a unified(统一) perspective(视角) on tackling (处理)various(各种) human-centric(以人为中心)1 video tasks by learning human motion representations(表示) from large-scale(大规模) and heterogeneous(异构) data resources.
我们提出了一种统一的视角来处理各种以人为中心的视频任务,即从大规模和异构的数据资源中学习人体运动表示。
Specifically, we propose a pretraining stage(阶段) in which a motion encoder is trained to recover the underlying(潜在的,深层的,暗含的) 3D motion from noisy partial(部分) 2D observations(观测).
具体而言,我们提出了一个预训练阶段,在此阶段中,运动编码器被训练用来从噪声的部分2D观测中恢复暗含的3D运动。
The motion representations acquired in this way incorporate(结合,包括) geometric, kinematic(运动学), and physical knowledge about human motion, which can be easily transferred to multiple(多个) downstream(下游) tasks.
以这种方式获得的运动表示包括关于人体运动的几何、运动学和物理知识,这些知识可以很容易地转移到多个下游任务中。
We implement(实现) the motion encoder with a Dual(双)-stream Spatio-temporal Transformer (DSTformer)2 neural network.
我们使用双流时空转换器(DSTformer)神经网络实现运动编码器。
It could capture long-range spatio-temporal relationships among the skeletal(骨骼的) joints(关节) comprehensively(全面地) and adaptively(自适应地), exemplified(以……为典范) by the lowest 3D pose estimation error so far(目前) when trained from scratch(从零开始).
它可以全面和自适应地捕获骨骼关节点之间的长程时空关系,这体现在从零训练时目前最低的3D姿态估计误差上。
Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning(微调) the pretrained motion encoder with a simple regression(回归) head (1-2 layers), which demonstrates(证明) the versatility(通用性) of the learned motion representations.
此外,我们提出的框架只需要用一个简单的回归头(1-2层)微调预训练的运动编码器,就在所有三个下游任务上都取得了最先进的性能,这证明了学习到的运动表示的通用性。
Code and models are available at this URL.
代码和模型可在这里获得。


  1. 在计算机视觉领域,“以人为中心”(Human-centric)通常指的是以人作为主要研究对象的任务和方法。
    这篇文章提出的框架可以被看作是“以人为中心”的视频理解方法,具有以下几个意义:
    研究问题都是关于人的,比如人体姿态估计、人体动作识别、人体形状恢复。
    输入数据都是以人为中心的,如人体关键点、人体网格、包含人的视频。
    提出的表示学习方法都是针对编码人体运动的,以学习通用的人体运动表示。
    预训练任务是从人体的二维关键点恢复三维姿态,目的是让模型学习人体结构约束。
    下游任务也都是人体相关的,来评估学习到的人体运动表示的质量。
    提出的DSTformer网络结构设计也考虑了人体骨骼的空间和时域信息。
    综上,这篇工作从问题定义、数据选择、方法设计和模型构建各个方面都是专注于人体这一中心对象的。充分利用了人体本身的结构与运动规律。所以可以被看作为“以人为中心”的视觉理解研究。这类方法可以更好地分析理解图像或视频中的人体,有利于很多下游应用。 ↩︎

  2. 关于文章中提出的DSTformer网络结构,其具体实现可以概括如下:
    输入:二维骨骼序列,经过线性投影得到初始特征,再加上位置编码。
    主体结构:包含N个双流融合模块,每个模块内有空间自注意力分支(S-MHSA)和时域自注意力分支(T-MHSA),顺序不同以专注不同的时空特性。
    S-MHSA:对同一时刻不同关节特征进行自注意力,获得空间特征。
    T-MHSA:对同一关节不同时刻特征进行自注意力,获得时域特征。
    融合:将两个分支特征以预测的注意力权重相加,实现自适应融合。
    输出:最后一个模块的输出过tanh层和线性层得到运动表示,再映射到最终输出。
    实现:使用PyTorch,transformer的实现可以直接调用现成的模块,自定义的是双流结构和自适应融合机制。
    训练:预训练阶段使用manipulated 2D骨骼恢复3D姿态作为自监督信号进行端到端训练。
    微调:保留编码器,替换简单的下游头部,再端到端微调到不同的下游任务。
    DSTformer设计简洁统一,兼顾全面的时空建模和高效的实现。为学习通用的人体运动表示提供了有效的网络架构。 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值