Meta-learning for Multilingual Text-to-Speech-论文梳理

本文深入探讨了多语言TTS的挑战,提出了一种基于元学习的上下文参数生成网络(GEN),改进了Tacotron-2的Encoder。实验表明,GEN在数据量有限的情况下仍能保持稳定性和性能,且在跨语言参数共享方面表现出色。通过对比实验,GEN在多语言语音合成和语音相似性方面优于其他基线模型。
摘要由CSDN通过智能技术生成

Abstract

理论部分

  1. Tacotron-2的Encoder改为了全CNN的,参数使用Meta-learning Concept of Contextual Parameter Generation(不过不知道Contextual具体指什么TODO)
  2. 文中分别用了10个语言和5个语言做实验,可能只有2个语言就不能训了(猜测,不过对于方言合成倒是有利)
  3. 语料要求更少,在训练集不管是整个还是只有每个语言每个人600句或者900句下,CER基本上均是最好(但可能并不能保证每个说话人都可以Voice Clone,细节见实验)

实验部分

  1. 实验验证的目的是,various levels of cross-lingual parameter sharing下哪一种更好(猜测也可以阐述为语音模型和语言模型的共享)
  2. 衡量指标1:stability and performance when training on low amounts of data – 借助ASR后CER大小
  3. 衡量指标2.1:speaker similarity(fluency, naturalness, and stability of the voice ) – 外文单词读的音色像不像
  4. 衡量指标2.2:accuracy – 外文单词发音准不准
  5. 数据集:CSS10挑选好的,CV挑选好的,均为开源
  6. 实验结果:衡量指标均是最好
  7. 实验结论:同上文的实验目的,这样的跨语言(以及跨音色)共享参数的方式effectively share information across languages
  8. 实验推论1(猜测):GEN模型的Accurate Multilingual功能,既当有单人多语语料的时候,论文方法弥补了第二语言发音不标准的缺陷(不确定,有些玄乎)
  9. 实验推论2(猜测):GEN模型的Voice Clone功能,既单语说话人也可以说多种语言,不管单语说话人的语料多少(不确定,毕竟是speaker embedding,或许speaker encoder vector会好些) 

代码部分

  1. https://github.com/Tomiinek/Multilingual_Text_to_Speech

1. Introduction

1.1. multiple languages TTS难点

  1. different inp
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值