music-to-dance系列论文之AI Choreographer: Music Conditioned 3D Dance Generation with AIST++-CSDN博客

本文链接：https://blog.csdn.net/EpicG/article/details/126952241

摘要

1）提出了AIST++多模态数据集，包括3D舞蹈动作及其音乐；
2）提出了FACT(a full-attention cross modal)模型，基于transformer结构解决与输入音乐关联问题。
3）代码和数据集获取地址：https://google.github.io/aichoreographer

介绍

舞蹈成为互联网上传播信息的强大工具。对人类来说，需要经过专业训练和拥有丰富舞蹈工作的舞者才能创造出富有表现力的舞蹈。这对人工智能提供了挑战性，因为该任务需要生成具有高运动复杂性的连续运动，并且捕捉与伴随音乐之间的非线性关系。
为了解决这些挑战，作者提出了一个Full Attention Cross-modal Transformer(FACT)模型，以及一个大规模3D舞蹈动作数据集AIST++。给定一段音乐和起始动作，FACT能够生成长时序的具有真实感的3D舞蹈动作。FACT模型利用一个audio transformer和一个初始动作transformer分别对两个模态的输入数据进行编码，而后通过一个cross-modal transformer来建模声音和动作间的分布 。该模型用于预测N个未来的动作序列，在测试时通过自回归的方式生成连续的动作。其中有三个关键设计：1）在自回顾模型中利用full-attention；2）future-N监督；3）两个模态的早期融合。

AIST++ Dataset

数据获取

从AIST Dance Database数据集中生成的AIST++。因为AIST中一个舞者的多个相机拍摄的视频时相机并未对准。AIST++根据SMPL参数恢复了相机的校准参数和3D人体运动。

数据集描述

AIST++是最大的3D人类舞蹈数据集，有1408个帧序列，30个主题和10种舞蹈风格。每一帧包含了 1）9个视图的相机内在和外在参数；2）17个COCO形式的2D和3D人体关键点位置；3）24个SMPL的姿态参数以及全局的缩放和平移参数。

基于音乐的3D舞蹈生成

问题描述

给定2s的初始动作 $X=(x_1, ..., x_T)$ 和一个长期音乐序列 $Y=(y_1, ..., y_{T^{'}})$ ，目标是生成一系列未来动作 $X=(x_{T+1}, ..., x_{T^{'}})$ 。

全注意力的跨模态Transformer

在这里插入图片描述

与以往Transformer不同之处在于：
1）在attention部分不使用mask机制，即不遮挡未来部分的信息，因此训练模型时只预测当前上下文窗口的T帧未来，而不仅仅是1个未来帧，这使得网络更多地关注时间背景，并且保证了训练一个模型在几代步骤后不会收到运动冻结或发散的影响。即 $X=(x_1, ..., x_T)$ → $X=(x_{T+1}, ..., x_{2T})$
2）将生成的motion embedding和audio embedding拼接起来，在输入cross-modal transformer，经验证发现，深度跨模态模块对于训练一个真正注意输入音乐的模型是必不可少的。

实验

AIST++运动质量验证

对3D动作重构进行验证，使用的方法是2D mean per joint position error(MPJPE-2D)，来验证预测的3D关键点和利用估计的相机参数重构后的3D关键点之间的像素差。

基于音乐的3D舞蹈生成

数据划分方式

在构建测试集时，作者先从每一个不同舞蹈类型中挑选一个音乐片段，然后对每一个音乐片段随机挑选两个舞者，每个舞者都有两种不同的编排与该音乐对应，因此测试集中总共有40种不同的舞蹈编排。构建训练集时将测试机中使用的音乐和舞蹈编排排除掉。

实现细节

120帧初始动作序列和240帧音乐序列
音乐特征：基于Librosa提取1维envelop，20维MFCC，12维Chroma，1维one-hot peaks以及1维one-hot节拍，总共是35维音乐特征
舞蹈特征：24个关节点的9维旋转矩阵，以及3维全局平移向量，总共219维运动特征

定量分析

1）运动质量
利用Frechet Inception Distance(FID)来计算生成动作和真实动作之间的距离分布（越小越好）。
$FID_g$ 和 $FID_k$ 指标：利用几何特征提取器生成一个布尔向量用以表达在运动序列中某些身体关键点之间的几何关系；一个运动学特征提取器将速度和加速度信息映射到运动序列。
2）生成多样性
作者计算了在AIST++测试集上生成的40个运动的特征空间中的平均欧氏距离（越大越好）。
3）运动和音乐之间的关联性
节拍对齐评分（BeatAlign）用于评估运动节拍和音乐节拍之间的运动-音乐关联性。利用librosa提取音乐节拍，利用运动速度的局部最小值提取运动节拍。节拍对齐评分计算每个运动节拍与其最近的音乐节拍之间的平均距离。
其中，x代表运动节拍，y代表音乐节拍

消融实验

1）Full-Attention Future-N Supervision：
对比配置：causal-attention shift-by-1 supervision; full attention with future 1 supervision; full attention with future 10 supervision; full attention with future 20 supervision
实验结果证实短期的监督会在后期生成过程中产生较大的运动漂移，当10个或20个未来帧监督时，模型更关注时间上下文可以产生高质量的长期运动序列。
2）Early Cross-Modal Fusion：
对比配置：
No-Fusion:14层运动transformer
Late-Fusion:13层motion/audio transformer，以及1层cross-modal transformer
Early-Fusion:2层motion/audio transformer，以及12层cross-modal transformer
实验结果证实早期融合允许跨模型变压器更多地关注音乐，而晚期融合则倾向于忽略条件反射音乐