2018NIPS:Neural Voice Cloning with a Few Samples

会议:2018 NIPS
机构:百度硅谷ai

abstract

 voice cloning是个性化语音交互想要的性能。主要有两种方法:1⃣️speaker adaptation:基于多说话者生成模型的finetune;2⃣️speaker encoding:训练一个单独的网络生成new speaker embedding,然后用于多说话者生成模型。就语音的自然度以及和原始语音的相似度而言,即使只有很少的数据量,两种方法也都能达到比较好的性能。而speaker adaptation的方式可以达到更好的自然度和相似度,需要的编码时间和数据量更少,在低资源应用下更受欢迎。

1. introduction

 用深度学习做生成任务,通过加额外的输入对生成的特征加以控制。在语音合成上,加speaker embedding控制合成的语音。对于tts任务,单个speaker的生成网络需要近20小时的训练数据,但是在voice cloning一个unseen的新的说话人时,仅需要几分钟甚至是几秒。

本文的主要贡献是:

  • 证明并分析了基于预训练的multi-speaker模型和fine-tune的对于一个unseen new speaker可以在很少的数据集上做speaker adaptation方法的优点。
  • 提出一种新的speaker encoding方法,在主观评价中相似度和自然度都很好,并且需要的cloning time和计算资源都少很多。
  • 提出一种针对说话人classification和verification自动评价的方法。
  • 证明了通过控制embedding实现gender voice marphing(变形)和accent transformation。
2. related work
  • 有很多网络做语音合成的任务,诸如deep voice1/2/3, tacotron, wavenet等,本文是基于deep voice3。
  • few shot generative modeling:基于现有的知识,在小样本上进行迁移学习。
  • speaker-dependent speech processing :ASR上做过很多说话人相关的建模探究,利用到说话人相关的特征。和voice cloning任务做对比,可以分成两大类方法。1⃣️第一类是speaker adaptation,针对整个网络的,针对网络一部分的,以及针对speaker embedding的。两个任务的区别在于一个是text-2-speech,另一个是speech-2-text;2⃣️第二类是将ASR模型和speaker embedding一起训练, 提取的embedding可以是i-vector,也可以是用分类损失函数训练的bottleneck layer。尽管总体的思路都是直接提取embedding,最大的区别在于我们的说话者编码模型是用直接和语音合成相关的目标函数训练的。i-vector的限制在于是单独训练的,没有直接和语音合成有关系。并且小数据集提取的i-vector可能是不精确的。另外一个方法是用trainable embedding,它可以被随机初始化并且用生成损失函数共同优化。
3.3 Discriminative models for evaluation

除了人为的主观评估之外,还设计了两个网络评估性能。

3.3.1 Speaker classification

 speaker classifier判断句子属于哪个说话人和audio sample。将一些要用于cloning的句子也用于speaker classifier的训练。网络结构如图6,在softmax之前加一层embedding layer。

3.3.2 Speaker verification

 本质上是一个二分类网络,判别cloned audio和ground-truth audio是否是同一个说话人。采用的是一个end-to-end text-independent 说话人认证网络,详见附录C。在多说话人数据集上训练,不需要再在target cloning audio上训练,因此可以用于小样本的unseen speaker。用EER作为性能测试的标准,评价cloned audio和ground truth有多接近。

4 Experiments
4.1 Datasets

 first set:multi-speaker generative model( tts任务)和speaker encoder是在librispeech(识别数据集,2484个说话人,16khz)上训练生成的,voice cloning是在VCTK数据集(108个说话人,降采样到16KHz)上做的。
 second set:探究训练数据集的影响,将VCTK数据集进行划分—84个训练,8个验证,16个测试。详见附录C,

4.2 Model specifications

 multi-speaker generative model和deep voice3一样,用GL vocoder。为了提升性能做的改进有:

  • increase time-resolution :hop length从400降到300, 窗长从1600降到1200。
  • 减少过拟合: embedding size降到128

==baseline:==在librispeech上训练的multi-speaker generative model,25M的训练参数量。
second set: deep voice 3的VCTK model参数,训练84个说话人的multi-speaker model。

  • speaker encoder: 分别用不同数量的cloning audio训练speaker encoder。将cloning audio转乘log-mel spec,送进spectral processing layers。学习率用退火算法处理;cloning audio的数目越多,预测的embedding越准确,尤其是在有attention机制的情况下。附录D详细说明。
  • speaker classifier: 用VCTK的数据集训练,判断句子属于108人中的哪一个<fc layer+6 conv layer+embedding layer(32)>,在验证集上达到100%准确率。
  • speaker verification: 用librispeech训练,验证集是librispeech中50个held-out speaker,随机将句子和speaker配对组成测试集(每种情况50%),详见附录C。
  • 在这里插入图片描述
4.3 Voice cloning performance

在这里插入图片描述
 对于speaker adaptation ,用speaker classification挑选的最佳的迭代次数;对于speaker encoding,考虑是否有speaker encoder和multi-speaker generative model联合训练,表1总结了训练所需的各项参数。
在这里插入图片描述
在这里插入图片描述
 图3说明了不同情况(whole model adaptation vc embedding adaptation)下精度随着自适应迭代次数的变化。图中反映:

  • 精度都会随着样本数的增加而增加,到10个sample之后增长不再明显;
  • 在较少的样本情况下,embedding adaptation更不容易过你和;
  • 两种方法都需要不同的迭代次数以收敛,embedding adaptation需要更多的次数收敛,需要更长的cloning time(whole model adaptation 在100个样本下迭代1000次左右)

在这里插入图片描述
在这里插入图片描述
 图4说明了speaker classification 和speaker verification的测试结果,表明:

  • 更多的cloning audio对精度和EER的改善都是有效果的;当cloning audio的数据加到5句的时候,whole model adaptation达到最佳;在精度上,speaker encoder的效果比speaker adaptation差,但是在EER上,两者差不多。
  • 主观评价: 在Amazon Mechanical Turk framework上测试,问题的设计参见 [Wester et al., 2016] 自然度按5分计算,相似度按4分计算。更多的cloning audio对两项指标都有改善。这个改善对于whole model adaptation是更明显的,因为对unseen speaker提供了更多程度的自由。对于大样本的情况,自然度明显比baseline更好,因为adaptation sample的质量比训练质量更好。speaker encoding的自然度略好于baseline;并且会随着finetune变得更好。speaker encoding和embedding adaptation的相似度都随着数据量的增加略有改善。
5. conclusion

 探究了speaker adaptation和speaker encoding两种方式进行voice cloning,并且证明两种方式都可以在小的数据量上实现任务。

  • 对于自然度而言,两种方式和baseline的效果差不多,可以进一步通过替换网络声码器达到更好的效果;、
  • 对于相似度而言,两种方法都证明更多的cloning audio会有更好的性能。whole model adaptation和embedding-only adaptation的性能差别说明除了speaker embeding之外 ,generative model中也有一些说话人相关的信息。
  • 通过embedding紧凑的表示的好处是可以实现快速的克隆,并且每个说话者占用的空间少
  • 使用VCTK训练,数据的多样性少,并且vctk是识别数据集,质量比合成数据集差,因此换用更多样、语音质量更好的数据集会进一步提升性能。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值