《Building Multilingual TTS using Cross-Lingual Voice Conversion》

在这里插入图片描述
使用从ASR模型生成PPG直接生成MCEP, LF0, BAP等特征,并用在Voice Conversion中,从而实现中日韩多语种多话者合成。尝试了三种方法,自然度MOS 3.28, 相似度MOS 2.77。

文章认为,首先传统基于PPG的VC系统将声学特征和韵律特征分开,但是坐着认为这二者之间实际上并不是弱相关关系,而是强相关关系,因此,可以将二者集合起来,尤其是将不同语言的PPG也结合起来用于表征更强烈的韵律特征。其次,呼应上述观点,作者认为,传统VC系统提取F0的错误对最终效果影响很大,因此提出不在独立提取F0,而是将MCEP, LF0, BAP同时提取。

模型结构

基于PPG的VC系统

在这里插入图片描述
VC系统的训练阶段分两步,分别是:

  1. SI-ASR声学模型训练阶段,用于训练声学模型从MFCC中提取PPG;
  2. 训练DNN模型完成PPG与声学特征的映射。输入是SI-ASR生成的PPG拼接而成的multi-lingual PPG, 输出是从TTS语料库中生成的声学特征

测试阶段 :

  • 首先,输入音频提取MFCC,通过训练的SI-ASR模型分别提取中日韩PGG,merge之后生成multilingual-PPG,
  • 然后,将multilingual PPG输入到训练好的DNN模型中,生成声学参数(MCEP, LF0, BAP)
  • 最终,使用Hitachi 声码器将声学参数转换成语音

多语言合成系统

文章尝试了三种方法,

  1. 第一种是利用上述VC系统,将中日韩语料库转成{日语说话人,中文说话人,韩语说话人}说{中,日,韩},然后训练multilingual TTS。
  2. 第二种是利用GAN+VC
  3. 第三种简单粗暴,合成的声学参数,使用VC进行后处理。

结果来看,反而是第一种方法得到的效果比较好。

总结

总体来说,文章后面写得过于粗糙,没有交代VC系统的细节,没有交代TTS 的细节等,无法很好的理解和复现以及借鉴。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值