会议: 2019 ASRU
作者:Yi Zhou, Xiaohai Tian
单位:新加坡国立
abstract
**motivation:**cross-lingual vc
idea: (1)一个encoder,2个语言相关的decoder。因为人们的发音系统相同,所以不同语言的音素体系是相似的,但是acoustic rendering, 比如prosody and phonotactic区别比较大;
(2)用i-vector控制说话人身份;
(3)从统一的English-Mandarin的声学模型中提取混合语言的PPG,做PPGs和声学特征之间多说话人的匹配。
语音质量和相似度提升。
introduction
cross-lingual vc:source和target来自不同的语种,可用于speech-to-speech translation, movie dubbing等。
2. related work
参考:Cross-lingual voice conversion with bilingual phonetic posteriorgram and average modeling
缺点:(1)不同语言的发音细节不一样,用同一个decoder不合适;(2)两个asr model提取句子的PPGs,结果会更偏向某一种语言。
3. modularized nn and mixed-lingual PPG
收到multi-task learning 成功的启发,包括shared language-independent module和 separate language-specific modules 2个模块。
S
(
X
)
S(X)
S(X)是共享的输入文本信息
L
c
n
,
L
c
n
L_{cn},L_{cn}
Lcn,Lcn分布是中文和英文的decoder。
训练的时候,language ID作为一个转换开关,梯度反传的时候只计算对应decoder的,另外一个decoder置为0。
3.2. Mixed-lingual PPG
将两种语言的句子送入同一个TDNN-based ASR,模型学习共享两种语言相似的声学单元,区分不同语言特有的音素,将senones作为特征target。
4. experiment
4.1. Database and Feature Extraction
英文VCC2016挑10人(5 male/5 female)
中文挑10人(5 male/5 female)
每人150句train(3000句train_set),12句validation
WORLD—513-d SP ; 1-d AP; 1-d F0
40-dimensional MCCs
PPGs的切分方式
4.2. Experimental Setup
做了4个对比实验
客观测试MCD
####3 主观测试
主要比较的en-cn, cn-en,而不是性别之间的转换
-
语音质量的AB preference test
-
语音质量的MOS测试
-
相似度的测试
-
BWS tests(best worst selected)
用不同的模型转换相同的内容的句子,让测试者挑出最好的和最差的。对语音质量和语音相似度都做这个测试。