近期语音合成论文总结

2024-03-26 VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild​​​​​​​

我们介绍了VOICERAFT,一种令牌填充神经编解码器语言模型,它在有声读物、互联网视频和播客的语音编辑和零样本文本到速度(TTS)方面都实现了最先进的性能。VOCECRAFT采用了Transformer解码器架构,并引入了一种令牌重排过程,该过程结合了因果掩蔽和延迟堆叠,以实现在现有序列内的生成。在语音编辑任务中,VOICERAFT产生的编辑语音在自然度方面与未经编辑的录音几乎无法区分,这是由人类评估的;对于零样本TTS,我们的模型优于之前的SotA模型,包括VALLE和流行的商业模型XTTS v2。至关重要的是,这些模型是在具有挑战性和现实性的数据集上进行评估的,这些数据集包括不同的口音、说话风格、录音条件、背景噪音和音乐,与其他模型和真实录音相比,我们的模型始终表现良好。特别是,对于语音编辑评估,我们引入了一个名为REALEDIT的高质量、具有挑战性和真实性的数据集。我们鼓励读者在https://jasonpy.github.io/VoiceCraft_web​​​​​​​上收听演示。

令牌重排过程和建模框架的一个示例。重排过程包括两个步骤:(1)因果掩蔽,其中掩蔽的跨度被掩蔽令牌替换并移动到末尾;(2)延迟堆叠,其中令牌根据其代码簿索引在时间维度上移动。

2024-03-9. HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling​​​​​​​

基于标记的文本到语音(TTS)模型已成为生成自然逼真语音的一种很有前途的途径,但它们难以解决发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求。作为回应,我们引入了一种新的分层声学建模方法,辅以量身定制的数据增强策略,并在真实数据和合成数据的组合上对其进行训练,将数据大小扩展到650k小时,从而产生具有0.8B参数的零样本TTS模型。
具体来说,我们的方法通过预测器将包含基于精细自监督学习(SSL)离散单元的补充声学信息的潜在变量序列合并到TTS模型中。这显著减轻了合成语音中的发音错误和风格突变。在训练过程中,我们战略性地替换和复制数据片段,以增强音色的一致性。
此外,利用预训练的少镜头语音转换模型来生成具有相同内容但不同音色的过多语音。这有助于明确学习话语水平的一对多映射,丰富语音多样性,并确保音色的一致性。对比实验1证明了我们的模型在发音精度、保持说话风格以及音色连续性方面优于VALL-E。

2024-03-05 NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

尽管最近的大规模文本到语音(TTS)模型已经取得了显著的进展,但它们在语音质量、相似性和韵律方面仍然存在不足。

考虑到语音复杂地包含各种属性(例如,内容、韵律、音色和声学细节),这些属性对生成提出了重大挑战,自然的想法是将语音分解为表示不同属性的各个子空间,并单独生成它们。受此启发,我们提出了NaturalSpeech3,这是一个具有新的因子化扩散模型的TTS系统,以零样本的方式生成自然语音。

具体而言,1)我们设计了一种具有因子分解矢量量化(FVQ)的神经编解码器,以将语音波形分解为内容、韵律、音色和声学细节的子空间;2) 我们提出了一个因子分解扩散模型,在每个子空间中按照相应的提示生成属性。

利用这种因子分解设计,NaturalSpeech3可以以分而治之的方式有效地对具有解纠缠子空间的复杂语音进行建模。实验表明,NaturalSpeech3在质量、相似性、韵律和可懂度方面优于最先进的TTS系统。此外,我们通过扩展到1B参数和200K小时的训练数据来实现更好的性能。

2024-02-29 Extending Multilingual Speech Synthesis to 100+ Languages without Transcribed Data

收集高质量的录音室录音具有挑战性,这限制了文本转语音 (TTS) 系统的语言覆盖范围。本文提出了一个框架,可在无监督的情况下使用发现的数据将多语言 TTS 模型扩展到 100 多种语言。所提出的框架将语音文本编码器预训练与使用非转录语音和非说出文本数据源的无监督训练相结合,从而利用大规模多语言联合语音和文本表示学习。

无需任何新语言的转录语音,该 TTS 模型就可以生成超过 30 种未见过的语言的可理解语音(CER 与真实情况的差异 <10%)。只需 15 分钟转录发现的数据,我们就可以将清晰度与真实情况的差异减少到 1% 或更少,并在多种语言中获得与真实情况相匹配的自然度分数。

2024-02-19 On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models

去噪扩散模型 (DDM) 在文本转语音 (TTS) 领域的应用不断增加,为合成高质量语音提供了巨大的价值。尽管它们表现出令人印象深刻的音频质量,但它们的语义能力程度尚不清楚,并且控制其合成语音的声音特性仍然是一个挑战。受图像合成最新进展的启发,我们探索了冻结 TTS 模型的潜在空间,该空间由 DDM 降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息,并概述了几种在其中寻找语义方向的新方法,包括有监督和无监督的方法。然后,我们演示这些如何实现现成的音频编辑,而无需任何进一步的培训、架构更改或数据要求。我们提供编辑音频的语义和声学质量的证据,并提供补充示例此 https URL

2024-02-15 BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data

We introduce a text-to-speech (TTS) model called BASE TTS, which stands for Big Adaptive Streamable TTS with Emergent abilities. 

我们介绍了一种称为BASE TTS的文本到语音(TTS)模型,它代表具有紧急能力的大自适应流式TTS。

BASE TTS是迄今为止最大的TTS模型,基于10万小时的公共域语音数据进行训练,实现了最先进的语音自然度。

它部署了一个10亿参数自回归transformer,将原始文本转换为离散代码(“语音代码”),然后是一个基于卷积的解码器,以增量、可流化的方式将这些语音代码转换为波形。

Further, our speechcodes are built using a novel speech tokenization technique that features speaker ID disentanglement and compression with byte-pair encoding.

此外,我们的语音代码是使用一种新的语音标记化技术构建的,该技术的特点是通过字节对编码对说话人ID进行解耦和压缩。

与广泛报道的大型语言模型在不断增加的数据量上训练时的“涌现能力”相呼应,我们发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在文本复杂的句子上表现出自然的韵律。我们设计并共享一个专门的数据集来衡量这些文本到语音的涌现能力。

我们展示了BASE TTS最先进的自然度;通过对照包括公开可用的大规模文本到速度系统的基线进行评估:YourTS、Bark和TortoiseTTS。由生成的音频样本

可以在听到模型的声音https://amazon-ltts-paper.com/.

我们的目标是开发包含语音和韵律信息的语音编码,但这些信息与说话者身份、录音条件和音频信号中的其他虚假特征无关。

为此,我们引入了一种基于从预训练的WavLM模型[39]中提取的特征的语音标记器,该模型进一步训练了有助于解开说话者身份的损失。

我们的方法类似于[43]中介绍的方法,但进行了修改,降低了代码的比特率。语音标记器的总体架构如图2所示。我们首先使波形通过WavLM模型并提取隐藏状态。然后,这些隐藏状态通过单独的内容和说话者线性回归器进行传递。

这些回归器的输出随后被馈送到卷积残差编码器[44]。内容编码通过矢量量化模块,该矢量量化模块每一个WavLM帧(即20ms的语音)输出一个语音代码。

说话人编码通过基于Transformer的说话人提取器[15]以获得说话人嵌入。

该模型只提取,我们只使用无法用于识别的非特异性特征。说话人嵌入与语音编码连接,并使用卷积解码器解码为声谱图。然后,我们计算解码频谱图和目标频谱图之间的L1距离,并将其用作重建损失。

虽然L1不是最佳重建目标,但我们优先考虑有利于自回归建模的表示[45],并在第2.4节中相应地证明,当用我们的语音编码解码器解码该学习的表示时,可以保持高的最终音频质量。

说话人嵌入用于对比损失,最大化来自同一说话人的样本之间的相似性,并最小化来自不同说话人的样本的相似性[46]。此外,我们最大化了说话人嵌入和嵌入之间的余弦距离,这些嵌入是通过将内容回归器的输出通过冻结说话人提取器并应用梯度反转获得的[47]。我们假设,这鼓励了内容和说话者信息之间的混乱。

Linguistic expert evaluation of "emergent abilities". To gauge the ability of BASE TTS to achieve finer understanding of the text, we hand-created an "emergent abilities testset" in English with 7 categories of texts: Questions, Emotions, Compound Nouns, Syntactic Complexities, Foreign Words, Paralinguistics, and Punctuations.

In Table 2, we present an example from each category, and how a linguistic expert rates the TTS output on a discrete 3-point scale. These sentences are designed to contain challenging tasks - parsing garden-path sentences [58], placing phrasal stress on long-winded compound nouns [59], producing emotional or whispered speech, or producing the correct phonemes for foreign words like "qi" or punctuations like "@" - none of which BASE TTS is explicitly trained to perform. Our hypothesis is that as BASE TTS increases in model capacity and trains over more data, the model will start to acquire these abilities, following evidence that scaling in these dimensions begets qualitative ability jumps [1, 32, 33]. We share the full testset in Appendix A.

2024-02-02 Natural language guidance of high-fidelity text-to-speech with synthetic annotations

在大规模数据集上训练的文本到语音模型已经证明了令人印象深刻的上下文学习能力和自然度。

然而,在这些模型中,对说话者身份和风格的控制通常需要以参考语音记录为条件,这限制了创造性应用。

或者,说话者身份和风格的自然语言提示已经证明了有希望的结果,并提供了一种直观的控制方法。然而,对人工标记描述的依赖阻碍了扩展到大型数据集。

我们的工作弥补了这两种方法之间的差距。

我们提出了一种可扩展的方法来标记说话者身份、风格和录音条件的各个方面

然后,我们将这种方法应用于45k小时的数据集,用于训练语音语言模型。此外,我们提出了提高音频保真度的简单方法,尽管完全依赖于发现的数据,但显著优于最近的工作。

我们的结果证明了在多种口音、韵律风格、通道条件和声学条件,所有这些都通过单一的模型和直观的自然语言条件来实现。音频样本可以在https://text-description-to-speech.com/上听到。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值