A modularized nn with language-specific output layers for cross-lingual VC

会议: 2019 ASRU
作者:Yi Zhou, Xiaohai Tian
单位:新加坡国立

abstract

**motivation:**cross-lingual vc
idea: (1)一个encoder,2个语言相关的decoder。因为人们的发音系统相同,所以不同语言的音素体系是相似的,但是acoustic rendering, 比如prosody and phonotactic区别比较大;
(2)用i-vector控制说话人身份;
(3)从统一的English-Mandarin的声学模型中提取混合语言的PPG,做PPGs和声学特征之间多说话人的匹配。
语音质量和相似度提升。

introduction

cross-lingual vc:source和target来自不同的语种,可用于speech-to-speech translation, movie dubbing等。

2. related work

参考:Cross-lingual voice conversion with bilingual phonetic posteriorgram and average modeling
在这里插入图片描述
缺点:(1)不同语言的发音细节不一样,用同一个decoder不合适;(2)两个asr model提取句子的PPGs,结果会更偏向某一种语言。

3. modularized nn and mixed-lingual PPG

在这里插入图片描述
在这里插入图片描述

收到multi-task learning 成功的启发,包括shared language-independent module和 separate language-specific modules 2个模块。
在这里插入图片描述
S ( X ) S(X) S(X)是共享的输入文本信息
L c n , L c n L_{cn},L_{cn} Lcn,Lcn分布是中文和英文的decoder。
训练的时候,language ID作为一个转换开关,梯度反传的时候只计算对应decoder的,另外一个decoder置为0。

3.2. Mixed-lingual PPG

将两种语言的句子送入同一个TDNN-based ASR,模型学习共享两种语言相似的声学单元,区分不同语言特有的音素,将senones作为特征target。

4. experiment
4.1. Database and Feature Extraction

英文VCC2016挑10人(5 male/5 female)
中文挑10人(5 male/5 female)
每人150句train(3000句train_set),12句validation在这里插入图片描述
WORLD—513-d SP ; 1-d AP; 1-d F0
40-dimensional MCCs

PPGs的切分方式
在这里插入图片描述

4.2. Experimental Setup

做了4个对比实验
在这里插入图片描述

客观测试MCD

在这里插入图片描述

####3 主观测试
主要比较的en-cn, cn-en,而不是性别之间的转换

  1. 语音质量的AB preference test

  2. 语音质量的MOS测试

  3. 相似度的测试
    在这里插入图片描述

  4. BWS tests(best worst selected)
    用不同的模型转换相同的内容的句子,让测试者挑出最好的和最差的。对语音质量和语音相似度都做这个测试。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值