MULTI-LINGUAL MULTI-SPEAKER TTS FOR VOICE CLONING WITH ONLINE SPEAKER ENROLLMENT 论文梳理

0. Abstract

最近在多语言和多说话者的语音合成中的研究提出了使用表演艺术家专有语料库并需要进行微调以吸引新声音的方法。为了降低这些成本,我们研究了一种新颖的方法,可以用母语注册的多种语言生成高质量的语音。在我们提出的系统中,我们引入了音调/重音嵌入,扩展了语言嵌入以表示音调和重音信息。通过操纵音调/重音嵌入输入,我们的系统可以以本机口音或外来口音合成语音。为了支持新演讲者的在线注册,我们将基于Tacotron的合成器设置为通过转移学习从预训练的x矢量演讲者编码器派生的演讲者嵌入。与IPA相比,我们引入了一个共享音素集来鼓励更多音素共享。我们的MOS结果表明,所有语言的母语都是高度可理解且自然的。我们还发现xvector上的L2范数归一化和ZCA白化有助于提高系统稳定性和音频质量。我们还发现WaveNet的性能似乎与语言无关:使用我们系统中三种支持的语言中的任何一种训练的WaveNet模型可以很好地生成其他两种语言的语音

1. Introduction

  1. 重要论文: Transfer learning from speaker verification to multispeaker text-to-speech synthesis
  2. 重要论文: Neural voice cloning with a few samples
  3. 引用了川哥的论文: [16]介绍了使用IPA培训的英语和普通话的跨语言TTS系统,无需嵌入语言。它可以成功地以两种语言合成语音,但是,它只能合成本地语音,而不能合成口音。它使用GL声码器(而不是WaveNet或其他基于神经的高保真声码器)导致合成语音质量较低
  4. 在本文中,我们研究了一种多语言,多说话者的TTS方法来合成三种语言的高质量语音,并且说话者会使用自己的母语进行注册。当合成语言不是讲话者的母语时,我们的系统提供了重音控制以合成重音和母语
  5. [17]提出了一种类似的方法,该方法在我们的系统中具有许多共同点。尽管如此,仍然存在以下显着差异:(a)我们的结果是可重复的,因为我们仅使用公开可用的训练语料,而[17]中的系统是针对专有数据进行训练的。 (b)[17]的目的是仅通过训练说话者的声音来合成语音,他们的训练数据由少数说话者(有些是专业的声优)组成,但每个人都需要数十小时的讲话时间。相反,我们在数百名演讲者上训练了我们的系统,每个演讲者的发言时间不到25分钟。我们认为我们的系统可以更广泛地适用于新演讲者,我们报告的结果是看不见的演讲者,而[17]则没有。 (c)两种系统均使用共享音素作为输入和音调/重音嵌入,以及扬声器嵌入。但是,我们的音素集鼓励更多共享,并且计算效率更高。与他们的语气/重音嵌入不同,我们将语言信息和语气/重音信息结合在一起,因此不需要额外的语言嵌入。我们使用最先进的x向量进行扬声器嵌入,而他们使用d向量。我们希望我们的合成语音在说话人相似性方面会更好,特别是对于看不见的测试说话人。 (d)我们的模型更简单,没有残差编码,也没有对抗训练。相反,我们研究了各种标准化方法对说话人嵌入矢量的影响,以增强合成语音的清晰度,自然性和说话人相似性。 (e)我们还研究了用一种语言的语音训练WaveNet声码器以合成系统中所有语言的语音的效果

2. Model Structure

TODO...

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值