Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

论文名称:Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
论文作者:字节跳动 Seed团队
发表时间:2024年6月
效果演示地址:效果演示

0. 摘要

文章推出了Seed-TTS,这是一系列大规模自回归语音合成模型。Seed-TTS 是语音生成的基础模型,在语音上下文学习方面表现出色,在说话人相似性和自然度方面的表现与客观和主观评估中的真实人类语音相匹配。通过微调,Seed-TTS在这些指标上获得了更高的主观分数。Seed-TTS 对各种语音属性(例如情感)具有出色的可控性,并且能够为自然界的说话者生成极具表现力和多样性的语音。此外,文章中提出了一种自蒸馏方法用于语音分解,以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。

除此之外,文章还提出了一种采用了完全基于扩散架构的非自回归 (NAR) 变体 Seed-TTS模型,名为Seed-TTS_DiT。与之前基于 NAR 的 TTS 系统不同,Seed-TTS_DiT不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。此变体实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

1. 介绍

Seed-TTS 的主要目标是创建一个接近人类水平的语音生成模型,即使对于自然界中任意说话者,尽管数据很少,也能达到这一水平。Seed-TTS 已在三项任务上进行了评估:零样本语音上下文学习 (ICL)、说话者微调情绪控制。文章中发布了测试数据集的配置以供将来进行基准测试,并讨论了模型在产品部署方面的行为。

文章中介绍了两种可以显著提高模型性能的新型扩展技术:通过自蒸馏进行语音分解通过强化学习 (RL) 实现偏好偏向。对于前者,不同于常用特征工程,或专门的损失公式,或模型设计方法,文中简单的自蒸馏方案使 Seed-TTS 能够在不改变模型结构或损失函数的情况下实现高质量的音色分离。对于后者,采用了 RL 技术并证明其在提高鲁棒性、说话人相似性和可控性方面的有效性。

然后,比较了语音生成两大类别的优缺点:基于语言模型的和基于扩散的建模。为此,本文设计了 Seed-TTS 的非自回归 (NAR) 变体,名为Seed-TTS_DiT,这是一个完全基于扩散的语音生成模型,它以端到端的方式直接预测输出语音潜在表示,而不是像以前的 NAR 方法那样依赖于单独的持续时间预测模块,文章证明 Seed-TTS_DiT 其性能与基于自回归语言模型的方法相当,并展示了其语音编辑能力。

最后,文章讨论了 Seed-TTS 的潜在应用和局限性,以及在开发过程中遇到的几个挑战,包括与构建对社会负责的人工智能 (AI) 相关的挑战。
文章主要贡献如下:

  • 推出了 Seed-TTS,这是一系列语音生成模型,能够生成极具表现力、类似人类的语音。证明了 Seed-TTS 在多项评估中实现了最佳 (SOTA) 性能。在零样本 ICL 设置下,表明 Seed-TTS 能够生成稳健、相似且高度动态的语音,与人类语音难以区分。
  • 提出了一种用于音色分离的 Seed-TTS 的新型自蒸馏扩展,并在语音转换任务中展示了 SOTA 性能。
  • 为 Seed-TTS 引入了一种新颖的基于 RL 的后训练扩展,从整体上提高了模型的性能。
  • 提出了一种全新的完全基于扩散的 Seed-TTS 变体,它实现了卓越的生成质量。我们展示了它在语音编辑任务中的优势,并将其与基于语言模型的同类产品进行了比较。

2. 方法

Seed-TTS 是一种基于自回归Transformer的模型,如图所示。该系统由四个主要构建块组成:speech tokenizertoken language modeltoken diffusion modeacoustic vocoder。强调一下,Seed-TTS 是在大量数据上进行训练的(比以前最大的 TTS 系统大几个数量级),以实现强大的泛化和突发能力。
Seed-TTS 推理流程概述

首先,speech tokenizer将语音信号转换为语音token序列(tokenizer的设计对整个系统的性能至关重要)。语言模型在文本和语音标记的成对序列上进行训练。在推理过程中,它会自回归地生成语音标记。论文中专注于语音生成任务,因此文本序列的损失被掩盖了。然后,这些生成的标记由扩散模型处理以增强声学细节。输出被传递给声学声码器以预测最终波形。声学声码器是单独训练的。

Seed-TTS 经历三个训练阶段:预训练、微调和后训练。预训练阶段旨在最大化场景和说话者的覆盖范围,同时为通用语音建模建立强大的主干。如前所述,Seed-TTS 在此阶段使用的训练数据量和模型规模比以前的语音生成模型大几个数量级。微调阶段包括说话人微调和指令微调,说话人微调侧重于提升特定说话人群体的表现,指令微调则着重提升可控性和互动性。后训练通过强化学习进行,整体提升模型性能。
Seed-TTS 模型有两个主要优势。

  • 首先,Seed-TTS 在各种场景中都表现出卓越的语音合成能力,包括喊叫、哭泣或情绪激动的语音等具有挑战性的场景。在开发过程中,我们在之前的 TTS 系统认为困难或不可能的场景中严格测试了该模型,结果显示出比之前的 SOTA 系统明显的优势。
  • 其次,Seed-TTS 解决了基于语言模型的 TTS 系统中普遍存在的稳定性问题,这些问题阻碍了它们在现实世界中的部署。稳定性是通过改进 token 和模型设计、增强训练和推理策略、数据增强和强化后训练来实现的。因此,Seed-TTS
<think>嗯,用户遇到了执行seed-vc命令时出现的错误信息“<stdin> is a directory, cannot continue”。我需要先理解这个错误的背景和可能的原因。根据用户提供的引用内容,特别是引用[3]和[4],错误通常与命令行环境或路径处理有关。例如,当用户在Python环境中运行本应在系统命令行中执行的命令时,会出现类似的错误。 首先,“<stdin>”通常指的是标准输入,但在这里错误提示说它是一个目录,这可能是命令期望从标准输入接收数据,但用户可能错误地传递了一个目录路径作为输入,而命令无法处理目录。或者,命令的参数使用不正确,导致将目录路径传递给了需要文件的地方。 接着,参考引用[3],当用户在Python环境中运行pip命令时,会出现NameError,因为pip不能在Python解释器内部运行。类似地,用户可能在错误的环境中执行seed-vc命令,或者命令的参数格式不正确。例如,可能误将目录路径作为输入,而命令需要文件。 另外,引用[4]提到SyntaxError实际上是由于在错误的环境下运行命令。用户可能混淆了命令行环境和脚本执行环境,导致路径被错误解析。因此,需要检查用户是否正确退出了Python环境或其他交互式环境,确保在系统命令行中执行seed-vc。 可能的解决方案包括检查命令参数是否正确,确保输入路径是文件而非目录,验证当前执行环境是否正确,以及确认seed-vc的命令语法是否正确。此外,查看官方文档或帮助信息,确认命令的使用方式,是否有必须的选项或参数被遗漏。 还需要考虑路径是否正确,比如绝对路径和相对路径的使用,或者路径中包含特殊字符导致解析错误。用户可能错误地将目录作为输入参数,而命令需要具体的文件,因此需要检查输入路径是否指向正确的文件类型。 总结可能的原因:1. 输入路径是目录而非文件;2. 命令在错误的环境中执行;3. 参数格式错误或遗漏必要选项;4. 路径中存在语法问题或特殊字符。</think>### 分析问题:`seed-vc`命令报错`<stdin> is a directory, cannot continue` 此错误表明命令试图将某个目录作为输入源(`stdin`),但程序要求输入应为文件或标准输入流。以下是逐步排查和解决方案: --- #### **1. 检查输入参数格式** - **问题原因**:可能错误地将目录路径传递给了需要文件路径的参数,例如: ```bash seed-vc --input /path/to/directory/ # 输入应为文件而非目录 ``` - **解决方案**: 确保`--input`参数指向**文件**而非目录。若需要批量处理目录下的文件,查看是否支持通配符(如`*.wav`)或递归参数(如`--recursive`)。 --- #### **2. 验证命令执行环境** - **问题原因**:在Python交互环境或其他解释器中直接运行系统命令(如`>>> seed-vc ...`),导致路径解析错误[^3][^4]。 - **解决方案**: 确保在系统终端(如cmd、PowerShell、Bash)中执行命令,而非Python解释器或其他编程环境。 --- #### **3. 检查路径语法** - **问题原因**:路径包含特殊字符(如空格、括号)或未正确转义,例如: ```bash seed-vc --input "C:/My Data/input_dir/" # 路径含空格但未用引号包裹 ``` - **解决方案**: 用双引号包裹含特殊字符的路径,或使用反斜杠转义: ```bash seed-vc --input "C:/My Data/input_dir/file.wav" ``` --- #### **4. 查阅文档确认参数要求** - **问题原因**:`seed-vc`可能需要特定参数(如`--input-file`而非`--input`),或要求输入从标准输入读取(如管道符`|`)。 - **解决方案**: 查看官方文档或运行`seed-vc --help`,确认参数是否需指定文件路径或支持目录输入。例如: ```bash # 若支持目录输入,可能需要添加递归参数 seed-vc --input /path/to/directory/ --recursive ``` --- #### **5. 调试命令执行** - **操作步骤**: 1. 简化命令测试: ```bash seed-vc --input test.wav # 使用无特殊字符的简单路径 ``` 2. 逐步添加参数,观察何时触发错误。 3. 使用`strace`(Linux)或`Process Monitor`(Windows)跟踪文件访问行为。 --- ### 总结 核心问题在于**输入路径被误判为目录**,可能由参数错误、路径格式或执行环境导致。优先检查输入路径类型,确保符合程序要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸟哥大大

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值