语音合成(TTS)论文优选:神经网络声码器对比A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction

本文对比了近年来6种神经网络声码器和2种相位重构算法在语音信号重建方面的表现。研究发现,LPCNet和WaveGlow在计算复杂度上更具优势,而Wavenet和WaveGlow在音质方面达到excellent等级。该对比为TTS技术的选型提供了参考。
摘要由CSDN通过智能技术生成

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction

本文章是德国埃尔兰根Fraunhofer IIS2019发表的文章,文章主要对近几年比较流行的声码器进行实验对比,为相关从业者和研究者提供参考(个人感觉这种分享经验的文章很有意义,为其它研究人员提供参考价值,真正的知识开源分享,比提出新的架构更具有参考价值。当然,效果好坏只能作为一项评价标准,因为开源的代码实现不同,也会造成效果的差距。)具体的文章链接https://pdfs.semanticscholar.org/093a/804dc251dbd68b190918e180707bd1f66e4b.pdf

1 研究背景

近年来,TTS技术的发展受益于机器学习的发展,尤其神经网络声码器的提出,使TTS的合成质量提升了不止一个档次。虽然目前的神经网络声码器已经获得很大的突破,但或多或少的存在一些问题:高复杂度或者合成质量不高。本文对近年来提出的神经网络声码器,在计算复杂度和合成音频的质量两个方面进行比较,提供实验结果,供同行参考。

2 评测系统

目前的声码器主要是把低维度的声学特征进行上采样生成时域波形。从高维度时域波形提取低维度的声学特征,然后通过声码器把声学特征恢复成波形的整个流程如图1所示。原始的speech预处理后进行STFT转换,然后进行mel刻度表示,该步骤造成了相位信息的丢失,而且不可逆。声码器的任务就是把mel谱等特征上采样恢复时域波形

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值