语音合成（TTS论文优选：VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

最新推荐文章于 2024-01-28 15:25:15 发布

我叫永强

最新推荐文章于 2024-01-28 15:25:15 发布

阅读量640

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238353

版权

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network

本文章2020.07.30由韩国NCSOFT语音AI实验室发表，主要在声码器Melgan基础上提出的多刻度的声码器VocGan,解决了Melgan合成音质不高的问题，具体的文章链接

http://yqli.tech/pdf/tts_paper/VocGAN-%20A%20High-Fidelity%20Real-time%20Vocoder%20with%20a%20Hierarchically%20nested%20Adversarial%20Network.pdf

1 研究背景

现有的声码器自从wavnet被提出以来发生翻天覆地的变化，使合成的音质更加自然。然而wavenet的复杂度很高，无法满足实时系统需求。为解决wavenet问题提出了很多类别的声码器：parallel声码器，基于flow声码器和基于Gan的声码器。其中melgan是具有代表性的基于Gan的声码器，该声码器可以在单核Cpu上3倍实时率合成音频，但合成的音频质量下降。为了解决melGan存在的问题，本文提出了Vocgan,该声码器可以保持相同的合成实时率的条件下，大大提高合成的音频质量。

2 详细的系统设计

先看一下melgan的vocgan的大体架构，如图1所示，vocgan在每一步的生成器G的输出都存在辨别器D，此为多刻度生成器。多刻度的生成器如图2所示，生成器的输入为mel spectrogram，该特

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成（TTS论文优选：VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network本文章2020.07.30由韩国NCSOFT语音AI实验室发表，主要在声码器Melgan基础上提出的多刻度的声码器VocGan,解决了Melgan合成音
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。