多语言TTS:Multilingual speech synthesis

Learning to Speak Fluently in a Foreign Language:Multilingual Speech Synthesis and Cross-Language Voice Cloning[2019interspeech][google]

在这里插入图片描述

  • motivation:单语种多语言发音问题

  • 核心思想:

    • 单个语言增加说话人数目,改善比较明显;
    • phn input比utf-8 encoding鲁棒性更强,性能接近;明显优于char encoding;
    • text encoder增加对抗训练,对音色相似度和口音native有改善;
    • Mel VAE,对效果稳定有提升,dim=16后增加对抗作用不大;
    • language id,dim=3,一定的提升,比较次要;
  • 结果:
    相似语种,英文-西班牙语的音色迁移更容易一些,英文-普通话效果差一些;
    音色迁移成功,不代表口音native

Improving Cross-lingual Speech Synthesis with Triplet Training Scheme[2022icassp][喜马拉雅]

  • 背景学习:triplet loss,小样本差别学习
    在这里插入图片描述
  • demo page: FE/DFE实验是在duarin base的基础上加入f0/energy predictor。
  • motivation:单语种多语言发音问题进阶,口音要足够native
  • 解决思路
    • 引入triplet loss,分两阶段训练:
      • 第一阶段,正常训练,只是loss项多了CP对抗loss,CP & SP重建损失;
      • 第二阶段,content triplet:【anchor,pos,None】,anchor-选择native speaker,且有同样文本;positive sample,非native speaker同样文本生成的 speech;neg,None;speaker triplet【anchor, pos, neg】anchor-native speaker,且有同样文本;positive sample,生成的非native speech;neg,非同样文本仍然是anchor speaker,这样做可以保证学的是口音,保留了音色;
      • 没有margin para,因为不需要分类;
        在这里插入图片描述
        在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值