Transfer Learning from Speaker Verification toMultispeaker Text-To-Speech Synthesis

🔥博客主页:是dream

🚀系列专栏:深度学习环境搭建环境配置问题解决自然语言处理语音信号处理项目开发

💘每日语录:闲看花开,静待花落,冷暖自知,干净如始

摘要

开发了一种基于神经网络的系统,用于将文本转化为语音(TTS),并且可以以不同说话者的声音进行语音合成。这包括那些在训练时没有出现过的说话者。该系统由三个独立训练的部分组成:

(1)说话者编码器网络:它被训练用于判定说话者是否一致,通过使用一组来自成千上万说话者的嘈杂语音但没有文本记录的数据,从目标说话者仅几秒的参考语音中生成一个固定维度的嵌入向量。

(2)序列到序列合成网络:这是基于Tacotron 2的系统,它将文本转换成mel频谱图,这个转换过程还受到说话者嵌入的影响。

(3)自回归WaveNet声码器网络:这一部分将mel频谱图转换成时域的波形样本,最终生成语音。

主要的工作:

        他们所提出的模型能够将经过辨别训练的说话者编码器所学到的说话者变异性知识转移到多说话者TTS任务中,并能够从未在训练中见过的说话者生成自然语音。我们量化了在大型多样化说话者集上训练说话者编码器以获得最佳泛化性能的重要性。最后,我们展示了随机采样的说话者嵌入可以用来合成不同于训练中使用的说话者声音的语音,表明模型已经学会了高质量的说话者表示。

1.引言

  • 研究目标:研究旨在构建一个TTS系统,以高效的方式为多种不同说话者生成自然语音,尤其关注零样本学习情景,即使用目标说话者的几秒未转录音频来合成该说话者的新语音,并且不需要更新任何模型参数。

  • 应用领域:这种系统可以在无障碍通信、跨语言翻译和低资源环境下从文本生成语音等方面应用,但也需要注意潜在的滥用风险,如未经允许模仿他人声音。

  • 解决方法:为了实现这一目标,研究采用了分离说话者建模语音合成的方法,首先通过训练说话者辨别嵌入网络捕捉说话者特征,然后用这个表示来训练高质量的TTS模型。这种分离训练降低了对高质量多说话者训练数据的需求。

  • 训练过程:说话者嵌入网络通过说话者验证任务进行训练,以区分不同说话者的话语。合成网络和说话者编码器可以在不平衡和不重叠的说话者集上进行训练,并且能够很好地泛化。增加编码器的说话者数量可以提高合适性,甚至可以合成完全新的说话者的语音。

  • 与现有研究的比较:研究与以往的TTS模型研究不同,它通过预训练的说话者验证模型进行迁移学习,而不依赖于中间语言特征,并且能够支持更多的说话者。零样本迁移需要在数千名说话者上进行训练,远远超过以前的研究。

2.多说话者语音合成模型

  •  模型构成:该系统由三个独立训练的神经网络组成,包括:

    1. 说话者编码器基于音频信号生成固定维度的向量,用于表示目标说话者的特征。(绿色部分)
    2. 序列到序列合成器(端到端)基于输入的字符或音素序列生成梅尔频谱图,同时受到说话者嵌入向量的条件影响。嵌入向量通过训练说话者编码器网络从目标说话者的音频信号中提取出来。(紫色部分)
    3. WaveNet声码器(自回归):将梅尔频谱图转换成时间域波形。(粉色部分)
  • 说话者编码器:用于将目标说话者的音频参考信号转换为固定维度的嵌入向量。它通过文本无关的说话者验证任务进行训练,将音频帧映射到嵌入向量,以捕捉不同说话者的特征。网络的训练数据包括音频示例和说话者身份标签,没有转录文本。

  • 合成器:扩展了Tacotron 2架构,支持多个说话者。在训练时,将目标说话者的嵌入向量合成器的编码器输出在每个时间步上进行连接。该合成器用文本文稿和目标音频对进行训练,将文本映射为音素序列,以提高训练收敛速度和发音质量。这里还给出了一个例子:

        图2展示了使用提议的系统合成不同声音的句子的示例。左侧显示了用于生成说话者嵌入向量的参考话语的梅尔频谱图,右侧显示了相应的合成器输出文本到梅尔频谱图的对齐以红色显示。在此示例中,使用了三位说话者,其中一位是男性(顶部),另外两位是女性(中部和底部)。与其他方法不同,研究中没有引入基于说话者嵌入向量的额外损失项,但发现这种综合损失在嘈杂的训练数据上更加稳健。

  • 神经声码器:使用WaveNet作为声码器,将合成器生成的梅尔频谱图转换为时间域波形

  • 推断和零样本说话者自适应:在推断过程中,模型可以根据任意未转录的音频信号进行条件合成,并且无需匹配要合成的文本。模型会从音频中推断说话者特征,因此可以适用于训练集之外的说话者,实现零样本自适应。 

表格1:语音自然度的平均意见分数(MOS),附带95%置信区间

结论:通过比较底部一行的较长信号持续时间与前两行的信号,可以得出相似的观察结果。右列中的相应参考话语梅尔频谱图也有类似的观察结果。

这段文字描述了底部一行前两行示例中语音合成的不同之处。底部一行示例的语音合成持续时间更长。同时,右列中的参考话语梅尔频谱图也呈现出类似的差异,反映了不同说话者的声音特征和语音风格的差异。这些观察结果说明了模型可以根据目标说话者的嵌入向量成功合成不同声音的语音。

3.实验

        作者使用了两个公共数据集(VCTK和LibriSpeech)来训练语音合成和声码器网络。VCTK包含109位发音者的44小时干净语音,而LibriSpeech包含了1,172位发音者的436小时语音。

作者对这些数据集进行了预处理,包括降采样、去除静音重新分割等。

他们还训练了一个说话者编码器,用于将合成网络与目标说话者的参考语音信号进行条件化。(说话者编码器是通过训练一个神经网络进行说话者验证任务来获得的,该网络将语音帧映射到一个固定维度的嵌入向量。)

也介绍了他们使用主观听觉测试(MOS评分)来评估合成语音的自然度和与目标说话者真实语音的相似性。最终,作者的模型在多发音者语音合成方面取得了出色的结果,特别是对于未知发音者,表现出色。

4.总结

总结了一个基于神经网络的多说话者文本语音合成系统的关键特点和限制:

特点:

  1. 系统结合了独立训练的说话者编码器网络序列到序列的TTS合成网络基于Tacotron 2的神经声码器,使其能够合成高质量的语音。
  2. 通过利用鉴别性说话者编码器学到的知识,合成器不仅适用于训练中见过的发音者,还适用于以前从未见过的发音者
  3. 通过主观听觉测试和说话者验证系统的评估,证明了合成的语音与目标发音者的真实语音相似。

限制:

  1. 与单发音者结果相比,该模型未达到人类水平的自然度,这是因为为多个发音者生成语音需要更少的数据和较低质量的数据集。
  2. 模型无法完全转移口音,需要额外的条件化机制来解决这个问题。
  3. 模型无法完全隔离说话者的声音和参考音频的语调,类似于之前的研究观察到的情况。

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是dream

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值