music-to-dance系列论文之伏羲AI编舞论文ChoreoMaster-CSDN博客

本文链接：https://blog.csdn.net/EpicG/article/details/127050359

本文介绍了ChoreoMaster，这是一个基于音乐驱动的舞蹈生成系统，能够根据输入音乐的风格、节奏和结构生成高质量的舞蹈动作序列。通过面向编舞的音乐舞蹈嵌入框架，系统建立了音乐和舞蹈之间的统一嵌入空间，捕捉风格和节奏关系。同时，它结合基于图的动作合成框架，遵循舞蹈规则，实现了对舞蹈动作的高效生成和用户可控性。ChoreoMaster解决了传统方法在音乐舞蹈同步和风格一致性上的问题，提高了舞蹈动作的多样性和艺术性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

尽管游戏和电影行业强烈需求，自动合成高质量的舞蹈动作仍然是一项具有挑战性的任务。本文提出了一套音乐驱动舞蹈生成的系统ChoreoMaster，能够基于输入音乐的风格、节奏和结构生成一段高质量的舞蹈动作序列。为了实现这一目标，引入了一种新的面向编舞的编舞音乐嵌入框架，成功地构建了音乐和舞蹈短语之间的风格和节奏关系的统一嵌入空间。然后将嵌入空间结合到一个基于图的动作合成框架，能够基于多种便无规则生成高质量的舞蹈动作。

介绍

舞蹈动作是电影和电子游戏中常见的元素，因此这些行业对高质量的3D舞蹈动画资产有着丰富的需求。舞蹈动画的制作非常昂贵且低效，通常需要一个艺术家来编排一段舞蹈，一个有经验的舞者来表演舞蹈以及一个动作捕捉团队来记录舞者的动作。整个任务需要在舞蹈编排和舞蹈方面的技能和专业知识，并涉及到清理和修复捕捉到的动作的繁琐过程。
基于图的框架成为解决运动合成的标准解决方案。在这种框架中，合成一项运动任务被视为在一个预先构造的运动图中寻找一个最优路径，每一个节点代表数据库中的一个运动片段，每条边代表关联节点之间转换的可行性。现有基于图的方法具有舞蹈编排上的缺陷，导致在大规模数据上测试时会产生清晰的缺陷。一方面，手动提取的节拍和节奏特征无法模拟音乐和舞蹈之间的深层联系，如风格一致性和结构合理性。另一方面，除了音乐，现有的方法没有考虑到广泛使用的舞蹈规则，这导致舞蹈艺术家评论说，合成的动作虽然看起来是一套流畅的拼接在一起的舞蹈动作，但不像一个好的艺术作品。
除此之外，现有的深度生成方法存在以下问题：通过深度学习模型捕捉音乐和舞蹈深层关系的方法最明显的缺点就是可控性差。此外，在神经网络将数据映射到低维潜在特征的过程中，高频动作可能被视为噪声，因此生成出来的动作看起来比较呆板。并且，现存方法忽略了专业编舞规则，因此在训练集之外的音乐数据生成出来舞蹈动作比较奇怪毫无艺术性。
本文利用了艺术规则来帮助舞蹈生成：
1）音乐风格和身体动作应该一致，传达相似的情绪和音调。
2）每个同步的舞蹈和音乐片段都应该呈现相同的节奏模式，而舞蹈短语中的节奏模式则具有很大的规律性。
3）一种舞蹈的组织应该与相应的音乐的结构相协调，例如，重复的音乐短语（诗歌和合唱）通常与重复的运动有关，而一个短语中相同的米通常对应于对称的运动。
基于这些规则，本文提出了ChoreoMaster：
首先构建成对或不成对的音乐舞蹈序列，再构建面向编舞的嵌入模块捕捉音乐和舞蹈之间的关联；
特别地，通过将音乐和舞蹈片段映射到统一的空间中，迫使相似风格的片段更为聚集，以获得舞蹈的风格特征；通过识别每一段舞蹈或音乐的节奏模式来发现舞蹈的节奏嵌入特征。
将学习到的舞蹈嵌入纳入一个新的面向舞蹈的基于图形的运动合成框架，该框架可以稳健有效地根据各种舞蹈规则生成高质量的舞蹈动作，同时为用户提供很大的可控性。

面向舞蹈学的舞蹈音乐嵌入

舞蹈音乐风格嵌入

保持舞蹈和音乐风格一致性的直接方法就是将音乐和舞蹈根据风格进行分类，在合成阶段迫使所选舞蹈片段风格与输入音乐片段风格一致就好了。然而这种方法存在以下缺陷：
1）不同音乐和舞蹈风格之间的界限并不明确，对其进行风格标签分配需要很强的专业性。
2）舞蹈和音乐风格分类的标准有所不同。
3）每个舞蹈或音乐风格中都包含大量的子风格，单靠风格标签很难保证音乐和舞蹈数据的风格一致性。
为了解决这个问题，本文提出一个舞蹈音乐嵌入网络来潜在的模拟音乐和舞蹈风格之间的联系。关键思想是将音乐和舞蹈片段映射到一个统一的嵌入空间中，在这个空间中传递相似情绪和音调的片段距离较为紧密。具体来说，使用未配对的音乐和舞蹈数据来独立训练两个分类网络，然后利用配对的数据将两个特征空间转换为一个统一的嵌入空间，其中音乐和舞蹈保持可分类，配对的音乐和舞蹈尽可能接近。
框架如下：利用音乐标记网络进行音乐特征编码，利用图卷积模块编码舞蹈特征，分别获得32维嵌入特征。
为了利用大量的不配对音乐和舞蹈数据，本文利用了一个两阶段的训练方式。在第一阶段，分别利用有标签但未匹配的音乐和舞蹈数据训练两个网络分支。为了更好地反映学习到的嵌入空间的潜在子风格，本文提出利用未监督的深度嵌入聚类算法(deep embedding clustering, DEC)，用来鼓励相近特征的聚集。此时的损失函数包括，分类损失和DEC损失

在第二阶段，两个分支网络使用同步的音乐和运动对进行联合训练，此时的损失函数包括分类损失和MSE损失。

舞蹈音乐节奏嵌入

在音乐理论中，节奏通常被表示为音乐节拍，节拍代表鼓点的组织方式。一般来说，音乐节拍对应音乐中的声音脉冲，而舞蹈节拍对应身体运动的停顿或转弯。
音乐通常包括多个器乐音轨，舞蹈涉及多个关节的同时移动，因此很难将舞蹈动作与音乐节拍对齐。
为了更好地理解音乐和舞蹈之间的节奏关系，本文要求专业艺术家在数据库中手动指定舞蹈的节拍模式，然后从音乐同步的舞蹈中检索到音乐的节拍模式。通过分析他们的标记结果，**本文发现每个节拍器中的节拍模式可以在数学上表示为一个二进制向量，称为节奏特征。**在每一个节奏特征中，偶数位表示节拍的存在（1:存在，0：不存在），它们对应于均匀间隔的标准节拍，而奇数位表示半节拍（1：存在，0：不存在），这解释了两个常规节拍之间的节奏点。
两个节奏特征之间的距离可以用汉明距离来定义，在计算汉明距离时，本文将不同的权重分配给不同的位：常规节拍为1.0，半节拍为0.5。
本文提出了一个节奏签名分类网络来有效地获得音乐和舞蹈的节奏嵌入。网络结构包括三个模块，其中，音乐和舞蹈分别有两个独立的特征提取块，每个特征提取块分别由两个卷积层和一个全连接层组成。获得特征后再通过三个共享全连接层进行节奏签名分类。将对应的音乐和舞蹈风格嵌入特征与节奏特征进行拼接实现节奏签名分类。

以编舞为导向的舞蹈合成

运动图的构建

运动图是一个有向图，其中每个节点表示数据库中的一个运动片段，而每条边表示两个相邻节点之间的转换代价。
为了更好地获得多样化的数据，本文提出了三种数据增强方式：
1）镜像 2）融合 3）重新排序
运动图同时考虑了风格的兼容性， $D_p$ 和 $D_q$ 两个节点的边缘过渡成本被定义为
$T(D_p,D_q)=\lambda_8T_d+\lambda_9T_z$
其中， $T_d$ 计算两个相邻节点的过渡帧中主要关节之间的位置距离、旋转距离和速度， $T_z$ 表示两个风格嵌入特征之间的欧氏距离。

基于图的优化

在基于图的框架中，每一个合成的动作对应于运动图中的一条路径。
给定输入音乐片段，本文首先将其利用musical bar检测算法把音乐分为多个bar。然后利用音乐分割和相似度标记方法来检索所有有音乐语义的短语并给定ID信息。检测短语中相近的bar并给定一个ID信息。
对于音乐序列中的每一个小节 $M_i$ ，本文获得它的风格嵌入 $Z_{M_i}$ 和前 $k$ 可能性的节拍签名。本系统的目标是将一个运动图中的舞蹈节点分配到每一个musical meter中，使得以下代价最小：
在这里插入图片描述
其中， $C_d$ ， $C_t$ 和 $C_s$ 分别为数据项、转换项和结构约束项。
数据项：

其中 $G_z$ 和 $G_r$ 是风格嵌入距离和节奏签名距离。
转换项：确保合成运动中相邻运动段之间的平滑过渡，并等于存储在图边上的过渡代价
在这里插入图片描述
结构项：保证重复的音乐短语对应于重复的动作，而一个短语中相同的小节通常对应于对称的动作。

实验

数据集

本文提出的运动资源包括从动漫社区收集的高质量舞蹈资源和MMD资源。总共包括19.91小时的舞蹈动作，其中9.91小时具有配对的音乐。通过数据扩充手段，将舞蹈数据扩展到2.56倍。本文额外收集了大规模印月数据集包括1954首音乐，音乐和舞蹈半自动地分割成小节。所有音乐和舞蹈都有风格标签，并且有专业艺术家标注的节奏签名。