语音合成（TTS)论文优选：One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

最新推荐文章于 2023-03-08 15:36:35 发布

我叫永强

最新推荐文章于 2023-03-08 15:36:35 发布

阅读量645

点赞数 1

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习 tts 机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110237977

版权

本文介绍了查尔斯大学的一项研究，提出了一种基于Tacotron2改进的多语言文本转语音（TTS）模型，通过元学习方法实现。相比现有多语言模型，该模型在语音合成质量和低资源条件下的表现更优。系统结构上，移除了Tacotron2的BLSTM编码器，使用卷积层并为每种语言单独设计编码器。参数生成器将语言类型信息处理后拼接至编码器各层。实验结果显示，该模型（GEN）在音质、识别准确率和合成质量方面优于其他系统。

摘要由CSDN通过智能技术生成

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

该篇文章是查尔斯大学发表，主要工作是做multilingual TTS。该模型使用monolingual的训练语料来训练多语言模型，本文更新时间为2020.08.03，具体的文章链接http://yqli.tech/pdf/tts_paper/2020%20One%20Model%20Many%20Languages%20%20Meta%20learning%20for%20Multilingual%20Text%20to%20Speech.pdf

1 研究背景

当前端到端的语音合成可以合成较高质量的语音，对TTS的研究方向也由多数据高质量单语言转到低质量多语言的研究。现在，很多机器学习的方法被应用到多语言的模型训练，比如：迁移学习（transfer learning)，知识共享（knowledge sharing), 声音复制(voice clone),语言转换（code-switch)等等。本文设计了一种多语言的TTS，该系统主要基于在Tacotron2模型。通过试验比较，本文提出的GEN比现有的多语言模型在语音语音合成质量上更优。

2 系统结构

该系统是在tacotron2基础上进行的修改，详细的系统结构如图1。首先，该系统把tacotron2的encoder部分BLSTM去掉，全部使用卷积层conv，而且每种语言拥有单独的encoder部分。其次，该系统添加par