多语言TTS：Multilingual speech synthesis

林林宋

已于 2023-11-13 19:04:37 修改

阅读量296

点赞数

分类专栏： paper笔记文章标签：人工智能

于 2023-11-13 16:32:06 首次发布

本文链接：https://blog.csdn.net/qq_40168949/article/details/134380206

版权

162 篇文章 23 订阅

订阅专栏

Learning to Speak Fluently in a Foreign Language:Multilingual Speech Synthesis and Cross-Language Voice Cloning[2019interspeech][google]

在这里插入图片描述

背景学习：triplet loss，小样本差别学习
demo page: FE/DFE实验是在duarin base的基础上加入f0/energy predictor。
motivation：单语种多语言发音问题进阶，口音要足够native
解决思路
- 引入triplet loss，分两阶段训练：
  - 第一阶段，正常训练，只是loss项多了CP对抗loss，CP & SP重建损失；
  - 第二阶段，content triplet：【anchor，pos，None】，anchor-选择native speaker，且有同样文本；positive sample，非native speaker同样文本生成的 speech；neg,None；speaker triplet【anchor, pos, neg】anchor-native speaker，且有同样文本；positive sample，生成的非native speech；neg，非同样文本仍然是anchor speaker，这样做可以保证学的是口音，保留了音色；
  - 没有margin para，因为不需要分类；

关注