A modularized nn with language-specific output layers for cross-lingual VC

最新推荐文章于 2021-06-27 22:06:30 发布

林林宋

最新推荐文章于 2021-06-27 22:06:30 发布

阅读量231

点赞数

分类专栏： paper笔记

原文链接：https://arxiv.org/pdf/1910.00496.pdf

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

会议： 2019 ASRU
作者：Yi Zhou, Xiaohai Tian
单位：新加坡国立

abstract

**motivation：**cross-lingual vc
idea: （1）一个encoder，2个语言相关的decoder。因为人们的发音系统相同，所以不同语言的音素体系是相似的，但是acoustic rendering, 比如prosody and phonotactic区别比较大；
（2）用i-vector控制说话人身份；
（3）从统一的English-Mandarin的声学模型中提取混合语言的PPG，做PPGs和声学特征之间多说话人的匹配。
语音质量和相似度提升。

introduction

cross-lingual vc：source和target来自不同的语种，可用于speech-to-speech translation, movie dubbing等。

2. related work

参考：Cross-lingual voice conversion with bilingual phonetic posteriorgram and average modeling
在这里插入图片描述
缺点：（1）不同语言的发音细节不一样，用同一个decoder不合适；（2）两个asr model提取句子的PPGs，结果会更偏向某一种语言。

3. modularized nn and mixed-lingual PPG

在这里插入图片描述

收到multi-task learning 成功的启发，包括shared language-independent module和 separate language-specific modules 2个模块。
在这里插入图片描述
$S (X)$ 是共享的输入文本信息
$L_{cn},L_{cn}$ 分布是中文和英文的decoder。
训练的时候，language ID作为一个转换开关，梯度反传的时候只计算对应decoder的，另外一个decoder置为0。

3.2. Mixed-lingual PPG

将两种语言的句子送入同一个TDNN-based ASR，模型学习共享两种语言相似的声学单元，区分不同语言特有的音素，将senones作为特征target。

4. experiment

4.1. Database and Feature Extraction

英文VCC2016挑10人（5 male/5 female）
中文挑10人（5 male/5 female）
每人150句train（3000句train_set），12句validation 在这里插入图片描述
WORLD—513-d SP ; 1-d AP; 1-d F0
40-dimensional MCCs

PPGs的切分方式
在这里插入图片描述

4.2. Experimental Setup

做了4个对比实验
在这里插入图片描述

客观测试MCD

在这里插入图片描述

####3 主观测试
主要比较的en-cn, cn-en，而不是性别之间的转换

语音质量的AB preference test
语音质量的MOS测试
相似度的测试
BWS tests（best worst selected）
用不同的模型转换相同的内容的句子，让测试者挑出最好的和最差的。对语音质量和语音相似度都做这个测试。

林林宋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A modularized nn with language-specific output layers for cross-lingual VC

会议： 2019 ASRU作者：Yi Zhou, Xiaohai Tian单位：新加坡国立abstractmotivation：cross-lingual vcidea: （1）一个encoder，2个语言相关的decoder。因为人们的发音系统相同，所以不同语言的音素体系是相似的，但是acoustic rendering, 比如prosody and phonotactic区别比较大。...
复制链接

扫一扫