BASE TTS

文章探讨了Amazon的BASETTS模型,这是一种10亿参数的TTS系统,基于大量公共领域语音数据进行训练,表现出色。研究介绍了模型的架构、离散语音表示法的进步以及涌现能力的实验验证,展示了在语音质量和效率方面的显著提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。

在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。

在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。

  • 论文标题:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

  • 论文链接:https://arxiv.org/pdf/2402.08093.pdf

BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 万小时的公共领域语音数据上进行了训练,比此前的训练数据量最高者 VALL-E 翻了一番。受 LLM 成功经验的启发,BASE TTS 将 TTS 视为下一个 token 预测的问题。这种方法通常与大量训练数据结合使用,以实现强大的多语言和多说话人能力。

本文的主要贡献概述如下:

1、提出了 BASE TTS,这是迄今为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。

2、展示了如何将 BASE TTS 扩展到更大的数据集和模型规模,以提高其为复杂文本呈现适当韵律的能力。为此,研究者开发并提供了一个「涌现能力」测试集,可作为大规模 TTS 模型文本理解和渲染的主观评估基准。本文报告了 BASE TTS 的不同变体在该基准上的表现,结果显示,随着数据集规模和参数量的增加,质量也在单调提升。

3、提出了建立在 WavLM SSL 模型之上的新型离散语音表示法,旨在只捕捉语音信号的音位和韵律信息。这些表示法优于基准量化方法,尽管压缩水平很高(仅 400 比特 / 秒),但仍能通过简单、快速和流式解码器将其解码为高质量的波形。

接下来,让我们看看论文细节。

BASE TTS 模型

与近期的语音建模工作类似,研究者采用了基于 LLM 的方法来处理 TTS 任务。文本被输入到基于 Transformer 的自回归模型,该模型可预测离散音频表示(称为语音编码),再通过由线性层和卷积层

### OpenMV 文本转语音(TTS) 功能探讨 对于希望集成文本转语音 (TTS) 功能到基于 OpenMV 的项目中的开发者而言,值得注意的是 OpenMV 并未内置直接支持 TTS 的库或模块。然而,这并不意味着无法实现这一目标。 一种可行的方法是利用外部服务来完成这项工作。例如,可以考虑通过网络请求调用云端 API 来处理文字并返回合成的声音数据流[^1]。Google Cloud Text-to-Speech API 提供了一种简单的方式接入和使用 TTS 功能,在这种情况下,可以通过 Wi-Fi 或其他联网方式让 OpenMV 设备连接至互联网并向该 API 发送 HTTP 请求获取所需音频资源。 另一种解决方案是在本地运行轻量级的 TTS 引擎。虽然 OpenMV 资源有限,但对于某些特定应用场景来说,仍然可以选择一些占用较少计算资源的小型开源 TTS 库进行移植适配。不过需要注意的是,这种方法可能需要一定的开发投入和技术挑战。 为了更好地理解如何在嵌入式平台上实施 TTS 解决方案,下面给出一段 Python 伪代码作为概念验证: ```python import urequests as requests from json import dumps def google_tts(text): url = "https://texttospeech.googleapis.com/v1/text:synthesize" headers = { 'Content-Type': 'application/json', 'Authorization': 'Bearer YOUR_API_KEY' } data = { "input": {"text": text}, "voice": {"languageCode": "en-US", "ssmlGender": "NEUTRAL"}, "audioConfig": {"audioEncoding": "MP3"} } response = requests.post(url, headers=headers, data=dumps(data)) audio_content = response.json()['audioContent'] with open('output.mp3', 'wb') as out: out.write(audio_content.decode('base64')) ``` 此段代码展示了向 Google Cloud TTS API 发起 POST 请求的过程,并保存生成的 MP3 文件。实际应用时还需根据具体硬件环境调整细节部分。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值