NeurIPS 2024 | 多语言多技巧歌声数据集GTSinger，适配所有歌声任务-CSDN博客

©PaperWeekly 原创 · 作者 | 张彧

单位 | 浙江大学

研究方向 | 音乐生成

传统的歌声任务，如歌声合成，旨在利用输入的歌词和乐谱生成高质量的歌声，受到业界和学术界的广泛关注。随着深度学习的发展，人们希望在歌声生成的同时实现可控和个性化定制。因此，技巧可控的歌声合成、技巧识别、歌声风格迁移以及语音到歌声的转换等任务应运而生。这些任务逐步发展并在短视频配音和专业音乐创作等现实场景得到应用。

然而，由于缺乏高质量和多任务的开源歌声数据集，这些新兴的歌声任务的发展受到了很大阻碍。为此，来自浙江大学的学者提出了一个全球化、多技巧的大型开源高质量歌声数据集 GTSinger，带有技巧对照组、真实乐谱、配对朗读数据，涵盖了目前所有歌声任务的需求，并在多个歌声任务上提供基准测试。

目前，该论文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收为 Spotlight，并已开源完整数据集和相关代码。

论文链接：

https://arxiv.org/abs/2409.13832

Demo链接：

https://gtsinger.github.io/

数据链接：

https://huggingface.co/datasets/GTSinger/GTSinger

代码链接

https://github.com/GTSinger/GTSinger

任务动机

由于录制歌曲和人工标注的高昂成本，高质量和多任务的歌声数据集的收集难度成为阻碍新兴歌声任务发展的主要瓶颈。而现有开源歌声数据集的局限性主要包括：

歌声录制和人工标注的质量较低，可能导致模型学习到的歌声跑调或带有噪音。
语言和歌手的多样性有限，限制了模型对多样的音色和风格的学习。
缺乏对多种歌唱技巧（如假声）的对照组和标注，阻碍了模型对技巧的建模和控制。
不配备真实乐谱，因此无法将模型直接应用在实际音乐创作中。
任务适用性较差，缺乏很多新兴的歌声任务需要的标注和配对朗读数据。

▲ 图1：现有开源歌唱数据集的信息表。Speech 表示配对朗读数据。Align 和 RMS 分别表示人工音素对齐和真实乐谱。Style 表示全局风格标签。

为了解决这些挑战，研究者们提出了 GTSinger，一个全球化、多技巧的大型开源高质量歌声数据集，包含技巧对照组、真实乐谱、配对朗读数据，涵盖了目前所有的歌声任务的需求。GTSinger 比起现有开源歌声数据集主要有以下优势：

专业歌手在专业录音棚中录制了 80.59 小时的歌声，使得 GTSinger 成为目前最大的录制歌声数据集；
20 位专业歌手总共使用了九种世界常用的语言（汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语），为 GTSinger 带来丰富的风格多样性;
GTSinger 为六种常用歌唱技巧（混声、假声、气声、咽音、颤音和滑音）提供了对照组和音素级的技巧标注；
不同于 MIDI 等精细乐谱，GTSinger 提供了可以用于实际音乐创作的真实乐谱；
人工音素对齐、全局风格标签（唱法、情感、音高范围和速度）以及 16.16 小时的配对朗读数据，让 GTSinger 可以适配各种歌声任务。

▲ 图2：GTSinger 中每首歌曲的构成。包括技巧组歌声、控制组歌声、配对朗读的音频和标注。

收集流程

GTSinger 的收集主要包括三个流程：音频录制，人工标注，后续处理。

▲ 图3：GTSinger 的数据处理流程。在每一步中都存在人工检查。

在音频录制阶段，音乐专家首先从语言自然度、歌声演唱水平、歌声技巧熟练度等维度严格筛选歌手；接着专家根据各语言的代表性，技巧的适用度，歌手的音域等因素挑选不同风格和不同情感的歌曲；之后歌手在专业录音棚中录制高质量的歌声。在技巧组中，歌手被要求密集使用特定技巧，而对照组则是排除特定技巧的自然演唱。

▲ 图4：语言、歌手、技巧和时长的信息表。技巧的时长包括控制组和技巧组中的时长。

人工标注流程主要包括对齐，技巧和风格标注，以及真实乐谱编写。在对齐阶段，音乐专家首先使用 MFA 完成粗标注，再利用 Praat 来进行对音素边界，错字漏字，无声区域（呼吸或静默）的校对和标注。

对齐完成后，另一组专家根据听感对混声、假声、气声、咽音、颤音和滑音六种技巧进行音素级标注。此外，专家们还为每首歌标记了全局风格标签，包括唱法（流行或美声）、情感（快乐或悲伤）、节奏（慢、中、快）和音高范围（低、中、高）。

接着，为了编写真实乐谱，研究者首先使用 RMVPE 来提取每首歌的 F0，随后使用 ROSVOT 推导出 MIDI 形式的精细乐谱。接着，音乐专家根据录制歌声，并参考原始伴奏进行以下步骤：

确定实际的节奏、谱号和调性；
调整乐谱以匹配真实音符的音高；
根据真实乐谱的规则修改音符时长；
标注音符类型，如休止符、歌词或连音符。

▲ 图5：F0、精细乐谱与真实乐谱之间的对比。精细乐谱会破坏音符时长的规律性，导致音符碎片化，不适合用于实际作曲。

在后续处理中，多个擅长特定语言的音乐专家对标注进行了审核。最后，歌声音频被按语义和无声区域等因素分割为更小的片段，其中超过 95% 的句子时长在 5 到 20 秒之间。

▲ 图5：切句时长、技巧、每分钟节拍数和音符音高的统计。

基准测试

为了评估数据集质量和任务适用性，GTSinger 在四个歌声任务上进行了全面评估：技巧可控的歌声合成、技巧识别、歌声风格迁移以及语音到歌声的转换。

▲ 图6：技巧可控的歌声合成的平行和非平行实验结果。平行实验使用真实技巧序列作为目标。在非平行实验中，六种技巧会随机且适当地分配给每个目标音素。

▲ 图7：技巧检测的总体和跨语言实验结果。语言被分类为亚洲语种和欧洲语种，跨语言实验中模型在其中一类语种训练并在另外一类测试。

▲ 图8：风格迁移的平行和跨语言实验结果。

▲ 图9：语音到歌声转换的实验结果。

根据这些实验结果，可以看出 GTSinger 不仅能在广泛的生成任务上应用，也适用于检测任务。

总结展望

本文提出了 GTSinger，一个全球化、多技巧的大型开源高质量歌声数据集，带有技巧对照组、真实乐谱、配对朗读数据，涵盖了目前所有歌声任务的需求，并在多个任务上提供了基准测试。

未来工作可以进一步扩展数据的多样性，如涵盖阿拉伯语等常用语言以及气泡音等技巧。同时研发基于字级别的模型可能会减少人工标注引入的一些细微错误的影响。最后，制作有伴奏的录制歌声数据集会对音乐领域有更大的帮助。

录制展示

Demo 1

基本信息：Chinese, ZH-Alto-1, Mixed Voice and Falsetto，逆光

全局风格：fast, medium, pop, happy

歌词：离开释怀很短暂又重来有时候自问自答

控制组：

混声组：

假声组：

朗读：

Demo 2

基本信息：English, EN-Alto-2, Breathy, Yesterday Once More

全局风格：slow, medium, pop, happy

歌词：when I was young i'd listen to the radio

控制组：

气声组：

朗读：

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧