语音合成论文优选:ESPnet2-TTS: Extending the Edge of TTS Research

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。语音合成http://yqli.tech/page/tts_paper.html。语音识别http://yqli.tech/page/asr_paper.html

如有转载,请标注来源。 欢迎关注微信公众号:低调奋进


ESPnet2-TTS: Extending the Edge of TTS Research

本文为Human Dataware Lab. Co., Ltd,Nagoya University等在2021.10.15更新的文章,主要在ESPNET-TTS基础上提供更灵活更有的TTS的训练工具库ESPNET2-TTS,具体文章链接

https://arxiv.org/pdf/2110.07840.pdf


(最近我主要整理语音识别的资料和网页,分享文章就减少了​。语音合成和语音识别资料查询可参考

https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)

简介

本文主要介绍新的工具ESPNET2-TTS,因此我主要总结该版本的主要优点,具体细节不做翻译​介绍:
1)提供了一些列便捷的音频处理工具和​完备的模型训练脚本;

2)提供大量预训练模型​:单人,多人等等​;

3)提供SOTA的TTS方案,主要包括

      a) T2M模型,即声学模型。自回归模型(AR)有Tacotron2,Transformer-TTS,非自回归模型(NAR)有Fastspeech, Fastspeech2​。其中也提供Conformer版本的​模型。

       b) M2W模型,即声码器​。主要有Griffin-Lim,Paralle WaveGan, MelGan, StyleMelGan,Hifi-Gan。

        c) Joint-T2W models。主要提供以上T2M和M2W进行联合训练​。

       d) E2E-T2W models。真正端到端T2W,文本直接合成​音频。主要有VITS​。

试验

 Table 1主要对比以下几个系统,结果显示本版本的联合训练加微调效果最好​。图1展示纯端到端VITS受到G2P的影响结果,其影响试验如table2​展示。

接下来进行多人模型试验,主要对比一下几个系统,结果如table3和table4所示的seen speaker和unseen speaker​。table5和table6主要在日语中进行试验,其中VITS效果较好,这个结果让人眼前一亮​啊。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值