[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

论文主要工作

论文主要贡献有两点:一是提出了一个基于Transformer的交叉模式的架构模型;二是建立了一个新的3D舞蹈数据集AIST++

技术亮点

  • 使用3个Transformer同时对于音频和3Dmotion进行transform并计算二者相关程度。
  • 将平时多用于NLP的Attention Mechanism用于音频到舞蹈动作的语义转换,并使用future_N监督方式,使得动作更加连贯。
  • 建立了一个新的数据集。

核心任务:Task

在这里插入图片描述
输入:AIST++ 3D 舞蹈数据集(用于训练)
网络:Cross-Modal Transformer-based Network
输出:不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果:给出一段音乐和一个短的seed motion,通过网络可以产生较长时间的3D舞蹈动作

AIST++数据集

AIST++是一个大规模的3D人体舞蹈动作数据集,包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上,作为动作生成和预测两个任务的benchmark,其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集,共有1.1M帧3D有音乐的舞蹈动作,包括基础和高级舞蹈艺术的1408个序列,涵盖了30个人物和10个流派,视频时长约为5小时。

补充:其他舞蹈数据集

  • AMASS:17.8 mins
  • Dance with Melody:94 mins
  • GrooveNet:23 mins
  • DanceNet:1h

核心网络:Transformer-based learning framework

本文的核心网络是基于Transformer的交互模式的架构,按照功能分为两个部分:

  • Deep cross-modal transformer:学习音乐和舞蹈动作之间的相关性。
  • Full-attention with future-N supervision mechanism:产生长时间的流畅动作。

Deep cross-modal transformer部分

按照不同的Transformer,我们可以把网络看作以下结构:
在这里插入图片描述
如图有三个Transformer:

  • Audio Transformer
  • Motion Transformer
  • Cross-Modal Transformer

Full-attention with future-N supervision mechanism部分

在这里插入图片描述

本文的所有Transformer都采用了这种Attention结构,具体的context vector C的计算如下。

在这里插入图片描述
此处网络结构以及参数含义可以参考此处的
Self Attention部分,本文中没有具体阐明。

Evaluation Metrics

  • Motion Quality:衡量动作质量。
  • Motion Diversity:衡量模型学到的一系列动作之间的多样性。
  • Motion-Music Correlation Metric:衡量模型学习到的音乐和动作的相关性。

相关工作:Baseline Method

3D Human Motion Synthesis

  • kernel-based 概率分布模拟:只能提取动作细节。
  • Motion Graph:姿势作为图节点、姿势之间的转换作为边,缺点是不能参数化。
  • RNN:动作会僵住(freeze),并且不自然。
  • Phase-functional neural networks:认为网络的weight是周期的,适用范围小。

Cross-Modal Sequence-to-Sequence Generation

交互感知多用于自然语言处理,端对端的处理不同种类的sequence,本文则是将audio到3D motion, 在该处理的过程中我们最初使用的是CNN、RNN,最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。

Audio To Human Motion Generation

2D pose
  • optimization based
  • learning based
3D pose
  • motion graph
  • LSTMs, GANs
  • RNNs or convolutional sequence-to-sequence models
  • Li et al :网络架构相似、但只实现audio到motion的产生,会产生不真实的动作。
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值