AAAI 2025 | 浙大团队提出TechSinger：基于流匹配的技巧可控、多语言歌声合成-CSDN博客

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/146314083

©PaperWeekly 原创 · 作者 | 郭文祥
单位 | 浙江大学

研究方向 | 音乐生成

歌声合成任务旨在通过输入的歌词和乐谱生成高质量的歌声。随着深度学习技术的发展，现有方法在生成自然且高质量的音频方面取得了显著进展，但鲜少能实现精准控制的歌唱技巧（如强度、混声、假声和气声等）。

为此，本文提出 TechSinger，一种支持五种语言与七种歌唱技巧精细控制的歌声合成系统，克服传统方法在可控性和艺术表达上的局限。

论文链接：

https://arxiv.org/pdf/2502.12572

Demo链接：

https://tech-singer.github.io

代码链接：

https://github.com/gwx314/TechSinger

任务动机

传统歌声合成技术缺乏对歌唱技巧的精细控制，且受限于现有数据集标注不足以及控制方式复杂的问题。TechSinger 通过以下创新解决难题：

自动标注技术：训练技巧检测器，为开源歌声数据自动添加音素级技巧标签。
流匹配生成框架：基于流匹配方法精准建模不同技巧歌声的音高与梅尔频谱。
多种技巧控制方式：支持通过技巧标签或自然语言指令指定合成技巧。

方法

2.1 总体架构

图中展示了本文提出的 TechSinger 的训练和推理过程。模型输入包括乐谱、MIDI 序列、歌手和技巧信息。若输入为自然语言 prompt，预训练的技巧预测器将生成对应音素的技巧标签。模型分为两阶段：

第一阶段：预测音素时长，通过流匹配生成基频（F0），解码器生成粗糙梅尔频谱。

第二阶段：以编码信息和粗糙梅尔频谱为条件，使用流匹配策略生成高质量梅尔频谱。

2.2 Flow Matching

TechSinger 基于流匹配模型预测音高（F0）和梅尔频谱，从而实现高精度技巧控制。具体而言，Flow Matching 通过高斯噪声与目标 F0/Mel 的线性插值构建概率路径，利用 ODE 求解器预测向量场，以规避传统 L1 损失导致的频谱模糊问题。训练损失如下：

生成过程中使用 Euler ODE 求解器进行逆向生成预测：

为进一步提升梅尔频谱质量，本文引入分类器无关引导（CFG）的流匹配后处理网络，结合标签随机丢弃策略，增强模型对标注噪声的鲁棒性。CFG 公式如下：

其中，缩放参数可用于调节生成技巧的强度。

2.3 技巧检测器与预测器

2.3.1 技巧检测器

为实现开源数据集的技巧标注，本文基于有标注的歌声数据训练技巧检测器。该检测器编码梅尔频谱、音高和能量等特征，采用以 Squeezeformer 为主体的 Unet 框架及多头注意力层，最终预测音素级技巧序列。损失函数为：

2.3.2 技巧预测器

为实现自然语言控制，本文基于 GPT-4o 设计 prompt 模板生成训练数据，并采用 FLAN-T5 编码器对用户提示（如“使用强力度演唱”）进行编码，通过 Transformer 模型预测音素级技巧序列。

实验

3.1 整体性能

实验基于 GTSinger、M4Singer 和自建技巧数据集，对比现有 SVS 模型添加技巧编码器的改进版本。主客观指标表明，TechSinger 在生成质量和技巧控制能力上均优于基线模型。可视化结果显示，其音高曲线和梅尔频谱细节与真人演唱更为接近。

3.2 技巧检测器和预测器

消融实验表明，Unet 框架和多头注意力层的设计显著提升检测准确率，同时较高的客观指标说明了自动化技巧标注技术的有效性。

不同编码器的对比实验显示，FLAN-T5 在跨语言技巧预测任务中表现最优。

3.3 TechSinger 消融

消融实验证实，流匹配生成框架和 CFG 策略对提升梅尔频谱质量具有关键作用，可以提高生成歌声的质量和技巧控制力。

总结与展望

本文提出首个基于流匹配框架的多语言、多技巧可控歌声合成系统 TechSinger，通过自动标注技术解决数据不足问题，并利用流匹配精准建模音高与频谱。此外，通过技巧预测器，实现自然语言控制歌声技巧生成。实验表明其能生成高质量、高表现力的歌声。

未来，将探索跨歌手音色迁移，控制生成技巧的强度，进一步提升创作自由度。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧