Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

鸟哥大大

已于 2025-01-17 09:40:31 修改

阅读量1.6k

点赞数 32

分类专栏：智能语音处理文章标签：深度学习人工智能 AIGC 语音识别机器学习

于 2025-01-06 10:48:43 首次发布

本文链接：https://blog.csdn.net/u014517744/article/details/144829928

版权

文章目录

0. 摘要
1. 介绍
2. 方法
3. 实验
4. 模型扩展
5. 模型应用、局限性和安全性

论文名称：Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
论文作者：字节跳动 Seed团队
发表时间：2024年6月
效果演示地址：效果演示

0. 摘要

文章推出了Seed-TTS，这是一系列大规模自回归语音合成模型。Seed-TTS 是语音生成的基础模型，在语音上下文学习方面表现出色，在说话人相似性和自然度方面的表现与客观和主观评估中的真实人类语音相匹配。通过微调，Seed-TTS在这些指标上获得了更高的主观分数。Seed-TTS 对各种语音属性（例如情感）具有出色的可控性，并且能够为自然界的说话者生成极具表现力和多样性的语音。此外，文章中提出了一种自蒸馏方法用于语音分解，以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。

除此之外，文章还提出了一种采用了完全基于扩散架构的非自回归 (NAR) 变体 Seed-TTS模型，名为Seed-TTS_DiT。与之前基于 NAR 的 TTS 系统不同，Seed-TTS_DiT不依赖于预先估计的音素持续时间，并通过端到端处理执行语音生成。此变体实现了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

1. 介绍

Seed-TTS 的主要目标是创建一个接近人类水平的语音生成模型，即使对于自然界中任意说话者，尽管数据很少，也能达到这一水平。Seed-TTS 已在三项任务上进行了评估：零样本语音上下文学习 (ICL)、说话者微调和情绪控制。文章中发布了测试数据集的配置以供将来进行基准测试，并讨论了模型在产品部署方面的行为。

文章中介绍了两种可以显著提高模型性能的新型扩展技术：通过自蒸馏进行语音分解和通过强化学习 (RL) 实现偏好偏向。对于前者，不同于常用特征工程，或专门的损失公式，或模型设计方法，文中简单的自蒸馏方案使 Seed-TTS 能够在不改变模型结构或损失函数的情况下实现高质量的音色分离。对于后者，采用了 RL 技术并证明其在提高鲁棒性、说话人相似性和可控性方面的有效性。

然后，比较了语音生成两大类别的优缺点：基于语言模型的和基于扩散的建模。为此，本文设计了 Seed-TTS 的非自回归 (NAR) 变体，名为Seed-TTS_DiT，这是一个完全基于扩散的语音生成模型，它以端到端的方式直接预测输出语音潜在表示，而不是像以前的 NAR 方法那样依赖于单独的持续时间预测模块，文章证明 Seed-TTS_DiT 其性能与基于自回归语言模型的方法相当，并展示了其语音编辑能力。

最后，文章讨论了 Seed-TTS 的潜在应用和局限性，以及在开发过程中遇到的几个挑战，包括与构建对社会负责的人工智能 (AI) 相关的挑战。
文章主要贡献如下：

推出了 Seed-TTS，这是一系列语音生成模型，能够生成极具表现力、类似人类的语音。证明了 Seed-TTS 在多项评估中实现了最佳 (SOTA) 性能。在零样本 ICL 设置下，表明 Seed-TTS 能够生成稳健、相似且高度动态的语音，与人类语音难以区分。
提出了一种用于音色分离的 Seed-TTS 的新型自蒸馏扩展，并在语音转换任务中展示了 SOTA 性能。
为 Seed-TTS 引入了一种新颖的基于 RL 的后训练扩展，从整体上提高了模型的性能。
提出了一种全新的完全基于扩散的 Seed-TTS 变体，它实现了卓越的生成质量。我们展示了它在语音编辑任务中的优势，并将其与基于语言模型的同类产品进行了比较。

2. 方法

Seed-TTS 是一种基于自回归Transformer的模型，如图所示。该系统由四个主要构建块组成：speech tokenizer、token language model、token diffusion mode和acoustic vocoder。强调一下，Seed-TTS 是在大量数据上进行训练的（比以前最大的 TTS 系统大几个数量级），以实现强大的泛化和突发能力。
Seed-TTS 推理流程概述

首先，speech tokenizer将语音信号转换为语音token序列（tokenizer的设计对整个系统的性能至关重要）。语言模型在文本和语音标记的成对序列上进行训练。在推理过程中，它会自回归地生成语音标记。论文中专注于语音生成任务，因此文本序列的损失被掩盖了。然后，这些生成的标记由扩散模型处理以增强声学细节。输出被传递给声学声码器以预测最终波形。声学声码器是单独训练的。

Seed-TTS 经历三个训练阶段：预训练、微调和后训练。预训练阶段旨在最大化场景和说话者的覆盖范围，同时为通用语音建模建立强大的主干。如前所述，Seed-TTS 在此阶段使用的训练数据量和模型规模比以前的语音生成模型大几个数量级。微调阶段包括说话人微调和指令微调，说话人微调侧重于提升特定说话人群体的表现，指令微调则着重提升可控性和互动性。后训练通过强化学习进行，整体提升模型性能。
Seed-TTS 模型有两个主要优势。

首先，Seed-TTS 在各种场景中都表现出卓越的语音合成能力，包括喊叫、哭泣或情绪激动的语音等具有挑战性的场景。在开发过程中，我们在之前的 TTS 系统认为困难或不可能的场景中严格测试了该模型，结果显示出比之前的 SOTA 系统明显的优势。
其次，Seed-TTS 解决了基于语言模型的 TTS 系统中普遍存在的稳定性问题，这些问题阻碍了它们在现实世界中的部署。稳定性是通过改进 token 和模型设计、增强训练和推理策略、数据增强和强化后训练来实现的。因此，Seed-TTS