[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

最新推荐文章于 2024-08-07 14:44:41 发布

Queen＆King

最新推荐文章于 2024-08-07 14:44:41 发布

阅读量1.9k

点赞数 4

分类专栏：论文学习文章标签： 3d

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43580325/article/details/113757186

版权

论文学习专栏收录该内容

5 篇文章

订阅专栏

论文学习01：Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

论文主要工作
相关工作：Baseline Method

论文主要工作

该论文的主要贡献有两点：一是提出了一个基于Transformer的交叉模式的架构模型；二是建立了一个新的3D舞蹈数据集AIST++。

技术亮点

使用3个Transformer同时对于音频和3Dmotion进行transform并计算二者相关程度。
将平时多用于NLP的Attention Mechanism用于音频到舞蹈动作的语义转换，并使用future_N监督方式，使得动作更加连贯。
建立了一个新的数据集。

核心任务：Task

在这里插入图片描述
输入：AIST++ 3D 舞蹈数据集（用于训练）
网络：Cross-Modal Transformer-based Network
输出：不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果：给出一段音乐和一个短的seed motion，通过网络可以产生较长时间的3D舞蹈动作

AIST++数据集

AIST++是一个大规模的3D人体舞蹈动作数据集，包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上，作为动作生成和预测两个任务的benchmark，其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集，共有1.1M帧3D有音乐的舞蹈动作，包括基础和高级舞蹈艺术的1408个序列，涵盖了30个人物和10个流派，视频时长约为5小时。

补充：其他舞蹈数据集

AMASS：17.8 mins
Dance with Melody：94 mins
GrooveNet：23 mins
DanceNet：1h

核心网络：Transformer-based learning framework

本文的核心网络是基于Transformer的交互模式的架构，按照功能分为两个部分：

Deep cross-modal transformer：学习音乐和舞蹈动作之间的相关性。
Full-attention with future-N supervision mechanism：产生长时间的流畅动作。

Deep cross-modal transformer部分

按照不同的Transformer，我们可以把网络看作以下结构：
在这里插入图片描述
如图有三个Transformer：

Audio Transformer
Motion Transformer
Cross-Modal Transformer

Full-attention with future-N supervision mechanism部分

在这里插入图片描述

本文的所有Transformer都采用了这种Attention结构，具体的context vector C的计算如下。

在这里插入图片描述
此处网络结构以及参数含义可以参考此处的
Self Attention部分，本文中没有具体阐明。

Evaluation Metrics

Motion Quality：衡量动作质量。
Motion Diversity：衡量模型学到的一系列动作之间的多样性。
Motion-Music Correlation Metric：衡量模型学习到的音乐和动作的相关性。

相关工作：Baseline Method

3D Human Motion Synthesis

kernel-based 概率分布模拟：只能提取动作细节。
Motion Graph：姿势作为图节点、姿势之间的转换作为边，缺点是不能参数化。
RNN：动作会僵住（freeze），并且不自然。
Phase-functional neural networks：认为网络的weight是周期的，适用范围小。

Cross-Modal Sequence-to-Sequence Generation

交互感知多用于自然语言处理，端对端的处理不同种类的sequence，本文则是将audio到3D motion，在该处理的过程中我们最初使用的是CNN、RNN，最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。

Audio To Human Motion Generation

2D pose

optimization based
learning based

3D pose

motion graph
LSTMs， GANs
RNNs or convolutional sequence-to-sequence models
Li et al ：网络架构相似、但只实现audio到motion的产生，会产生不真实的动作。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。