《Building Multilingual TTS using Cross-Lingual Voice Conversion》

最新推荐文章于 2023-11-13 16:32:06 发布

GFward

最新推荐文章于 2023-11-13 16:32:06 发布

阅读量257

点赞数

分类专栏：语音合成文章标签：神经网络自然语言处理

本文链接：https://blog.csdn.net/CSDN_71560364126/article/details/115248424

版权

语音合成专栏收录该内容

16 篇文章 3 订阅

订阅专栏

在这里插入图片描述
使用从ASR模型生成PPG直接生成MCEP, LF0, BAP等特征，并用在Voice Conversion中，从而实现中日韩多语种多话者合成。尝试了三种方法，自然度MOS 3.28，相似度MOS 2.77。

文章认为，首先传统基于PPG的VC系统将声学特征和韵律特征分开，但是坐着认为这二者之间实际上并不是弱相关关系，而是强相关关系，因此，可以将二者集合起来，尤其是将不同语言的PPG也结合起来用于表征更强烈的韵律特征。其次，呼应上述观点，作者认为，传统VC系统提取F0的错误对最终效果影响很大，因此提出不在独立提取F0，而是将MCEP, LF0, BAP同时提取。

模型结构

基于PPG的VC系统

在这里插入图片描述
VC系统的训练阶段分两步，分别是：

SI-ASR声学模型训练阶段，用于训练声学模型从MFCC中提取PPG；
训练DNN模型完成PPG与声学特征的映射。输入是SI-ASR生成的PPG拼接而成的multi-lingual PPG，输出是从TTS语料库中生成的声学特征

测试阶段：

首先，输入音频提取MFCC，通过训练的SI-ASR模型分别提取中日韩PGG，merge之后生成multilingual-PPG,
然后，将multilingual PPG输入到训练好的DNN模型中，生成声学参数（MCEP, LF0, BAP）
最终，使用Hitachi 声码器将声学参数转换成语音

多语言合成系统

文章尝试了三种方法，

第一种是利用上述VC系统，将中日韩语料库转成{日语说话人，中文说话人，韩语说话人}说{中，日，韩}，然后训练multilingual TTS。
第二种是利用GAN+VC
第三种简单粗暴，合成的声学参数，使用VC进行后处理。

结果来看，反而是第一种方法得到的效果比较好。

总结

总体来说，文章后面写得过于粗糙，没有交代VC系统的细节，没有交代TTS 的细节等，无法很好的理解和复现以及借鉴。

GFward

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Building Multilingual TTS using Cross-Lingual Voice Conversion》

使用从ASR模型生成PPG直接生成MCEP, LF0, BAP等特征，并用在Voice Conversion中，从而实现中日韩多语种多话者合成。尝试了三种方法，自然度MOS 3.28，相似度MOS 2.77。文章认为，首先传统基于PPG的VC系统将声学特征和韵律特征分开，但是坐着认为这二者之间实际上并不是弱相关关系，而是强相关关系，因此，可以将二者集合起来，尤其是将不同语言的PPG也结合起来用于表征更强烈的韵律特征。其次，呼应上述观点，作者认为，传统VC系统提取F0的错误对最终效果影响很大，因此提出不.
复制链接

扫一扫