语音合成论文优选：ESPnet2-TTS: Extending the Edge of TTS Research

最新推荐文章于 2024-08-09 07:26:24 发布

我叫永强

最新推荐文章于 2024-08-09 07:26:24 发布

阅读量785

点赞数

分类专栏：语音合成综述语音合成论文文章标签：语音识别人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/120911537

版权

语音合成论文同时被 2 个专栏收录

104 篇文章

订阅专栏

语音合成综述

44 篇文章

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。文章同列统计可访问。语音合成http://yqli.tech/page/tts_paper.html。语音识别http://yqli.tech/page/asr_paper.html

如有转载，请标注来源。欢迎关注微信公众号：低调奋进

ESPnet2-TTS: Extending the Edge of TTS Research

本文为Human Dataware Lab. Co., Ltd，Nagoya University等在2021.10.15更新的文章，主要在ESPNET-TTS基础上提供更灵活更有的TTS的训练工具库ESPNET2-TTS，具体文章链接

https://arxiv.org/pdf/2110.07840.pdf

（最近我主要整理语音识别的资料和网页，分享文章就减少了。语音合成和语音识别资料查询可参考

https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）

简介

本文主要介绍新的工具ESPNET2-TTS，因此我主要总结该版本的主要优点，具体细节不做翻译介绍：
1）提供了一些列便捷的音频处理工具和完备的模型训练脚本；

2）提供大量预训练模型:单人，多人等等；

3）提供SOTA的TTS方案，主要包括

a) T2M模型，即声学模型。自回归模型（AR)有Tacotron2,Transformer-TTS，非自回归模型（NAR)有Fastspeech, Fastspeech2。其中也提供Conformer版本的模型。

b) M2W模型，即声码器。主要有Griffin-Lim,Paralle WaveGan, MelGan, StyleMelGan，Hifi-Gan。

c) Joint-T2W models。主要提供以上T2M和M2W进行联合训练。

d) E2E-T2W models。真正端到端T2W，文本直接合成音频。主要有VITS。

试验

Table 1主要对比以下几个系统，结果显示本版本的联合训练加微调效果最好。图1展示纯端到端VITS受到G2P的影响结果，其影响试验如table2展示。

接下来进行多人模型试验，主要对比一下几个系统，结果如table3和table4所示的seen speaker和unseen speaker。table5和table6主要在日语中进行试验，其中VITS效果较好，这个结果让人眼前一亮啊。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。