声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。语音合成http://yqli.tech/page/tts_paper.html。语音识别http://yqli.tech/page/asr_paper.html
如有转载,请标注来源。 欢迎关注微信公众号:低调奋进
ESPnet2-TTS: Extending the Edge of TTS Research
本文为Human Dataware Lab. Co., Ltd,Nagoya University等在2021.10.15更新的文章,主要在ESPNET-TTS基础上提供更灵活更有的TTS的训练工具库ESPNET2-TTS,具体文章链接
https://arxiv.org/pdf/2110.07840.pdf
(最近我主要整理语音识别的资料和网页,分享文章就减少了。语音合成和语音识别资料查询可参考
https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)
简介
本文主要介绍新的工具ESPNET2-TTS,因此我主要总结该版本的主要优点,具体细节不做翻译介绍:
1)提供了一些列便捷的音频处理工具和完备的模型训练脚本;
2)提供大量预训练模型:单人,多人等等;
3)提供SOTA的TTS方案,主要包括
a) T2M模型,即声学模型。自回归模型(AR)有Tacotron2,Transformer-TTS,非自回归模型(NAR)有Fastspeech, Fastspeech2。其中也提供Conformer版本的模型。
b) M2W模型,即声码器。主要有Griffin-Lim,Paralle WaveGan, MelGan, StyleMelGan,Hifi-Gan。
c) Joint-T2W models。主要提供以上T2M和M2W进行联合训练。
d) E2E-T2W models。真正端到端T2W,文本直接合成音频。主要有VITS。
试验
Table 1主要对比以下几个系统,结果显示本版本的联合训练加微调效果最好。图1展示纯端到端VITS受到G2P的影响结果,其影响试验如table2展示。
接下来进行多人模型试验,主要对比一下几个系统,结果如table3和table4所示的seen speaker和unseen speaker。table5和table6主要在日语中进行试验,其中VITS效果较好,这个结果让人眼前一亮啊。