BASE TTS

文章探讨了Amazon的BASETTS模型,这是一种10亿参数的TTS系统,基于大量公共领域语音数据进行训练,表现出色。研究介绍了模型的架构、离散语音表示法的进步以及涌现能力的实验验证,展示了在语音质量和效率方面的显著提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。

在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。

在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。

  • 论文标题:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

  • 论文链接:https://arxiv.org/pdf/2402.08093.pdf

BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 万小时的公共领域语音数据上进行了训练,比此前的训练数据量最高者 VALL-E 翻了一番。受 LLM 成功经验的启发,BASE TTS 将 TTS 视为下一个 token 预测的问题。这种方法通常与大量训练数据结合使用,以实现强大的多语言和多说话人能力。

本文的主要贡献概述如下:

1、提出了 BASE TTS,这是迄今为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。

2、展示了如何将 BASE TTS 扩展到更大的数据集和模型规模,以提高其为复杂文本呈现适当韵律的能力。为此,研究者开发并提供了一个「涌现能力」测试集,可作为大规模 TTS 模型文本理解和渲染的主观评估基准。本文报告了 BASE TTS 的不同变体在该基准上的表现,结果显示,随着数据集规模和参数量的增加,质量也在单调提升。

3、提出了建立在 WavLM SSL 模型之上的新型离散语音表示法,旨在只捕捉语音信号的音位和韵律信息。这些表示法优于基准量化方法,尽管压缩水平很高(仅 400 比特 / 秒),但仍能通过简单、快速和流式解码器将其解码为高质量的波形。

接下来,让我们看看论文细节。

BASE TTS 模型

与近期的语音建模工作类似,研究者采用了基于 LLM 的方法来处理 TTS 任务。文本被输入到基于 Transformer 的自回归模型,该模型可预测离散音频表示(称为语音编码),再通过由线性层和卷积层

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值