BASE TTS_base-tts-CSDN博客

本文链接：https://blog.csdn.net/qq_29788741/article/details/136120369

文章探讨了Amazon的BASETTS模型，这是一种10亿参数的TTS系统，基于大量公共领域语音数据进行训练，表现出色。研究介绍了模型的架构、离散语音表示法的进步以及涌现能力的实验验证，展示了在语音质量和效率方面的显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

伴随着生成式深度学习模型的飞速发展，自然语言处理（NLP）和计算机视觉（CV）已经经历了根本性的转变，从有监督训练的专门模型，转变为只需有限的明确指令就能完成各种任务的通用模型。

在语音处理和文本到语音（TTS）领域，这样的转变也正在发生，模型能够利用数千小时的数据，使合成结果越来越接近类人语音。

在最近的一项研究中，亚马逊正式推出了 BASE TTS，将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。

论文标题：BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
论文链接：https://arxiv.org/pdf/2402.08093.pdf

BASE TTS 是一个多语言、多说话人的大型 TTS（LTTS）系统，在约 10 万小时的公共领域语音数据上进行了训练，比此前的训练数据量最高者 VALL-E 翻了一番。受 LLM 成功经验的启发，BASE TTS 将 TTS 视为下一个 token 预测的问题。这种方法通常与大量训练数据结合使用，以实现强大的多语言和多说话人能力。

本文的主要贡献概述如下：

1、提出了 BASE TTS，这是迄今为止最大的 TTS 模型，具有 10 亿参数，并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中，BASE TTS 的表现优于公开的 LTTS 基线模型。

2、展示了如何将 BASE TTS 扩展到更大的数据集和模型规模，以提高其为复杂文本呈现适当韵律的能力。为此，研究者开发并提供了一个「涌现能力」测试集，可作为大规模 TTS 模型文本理解和渲染的主观评估基准。本文报告了 BASE TTS 的不同变体在该基准上的表现，结果显示，随着数据集规模和参数量的增加，质量也在单调提升。

3、提出了建立在 WavLM SSL 模型之上的新型离散语音表示法，旨在只捕捉语音信号的音位和韵律信息。这些表示法优于基准量化方法，尽管压缩水平很高（仅 400 比特 / 秒），但仍能通过简单、快速和流式解码器将其解码为高质量的波形。

接下来，让我们看看论文细节。

BASE TTS 模型

与近期的语音建模工作类似，研究者采用了基于 LLM 的方法来处理 TTS 任务。文本被输入到基于 Transformer 的自回归模型，该模型可预测离散音频表示（称为语音编码），再通过由线性层和卷积层