语音合成（TTS)论文优选:神经网络声码器对比A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction

最新推荐文章于 2024-07-18 10:49:23 发布

我叫永强

最新推荐文章于 2024-07-18 10:49:23 发布

阅读量832

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习 tts 机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238396

版权

本文对比了近年来6种神经网络声码器和2种相位重构算法在语音信号重建方面的表现。研究发现，LPCNet和WaveGlow在计算复杂度上更具优势，而Wavenet和WaveGlow在音质方面达到excellent等级。该对比为TTS技术的选型提供了参考。

摘要由CSDN通过智能技术生成

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction

本文章是德国埃尔兰根Fraunhofer IIS2019发表的文章，文章主要对近几年比较流行的声码器进行实验对比，为相关从业者和研究者提供参考（个人感觉这种分享经验的文章很有意义，为其它研究人员提供参考价值，真正的知识开源分享，比提出新的架构更具有参考价值。当然，效果好坏只能作为一项评价标准，因为开源的代码实现不同，也会造成效果的差距。）具体的文章链接https://pdfs.semanticscholar.org/093a/804dc251dbd68b190918e180707bd1f66e4b.pdf

1 研究背景

近年来，TTS技术的发展受益于机器学习的发展，尤其神经网络声码器的提出，使TTS的合成质量提升了不止一个档次。虽然目前的神经网络声码器已经获得很大的突破，但或多或少的存在一些问题：高复杂度或者合成质量不高。本文对近年来提出的神经网络声码器，在计算复杂度和合成音频的质量两个方面进行比较，提供实验结果，供同行参考。

2 评测系统

目前的声码器主要是把低维度的声学特征进行上采样生成时域波形。从高维度时域波形提取低维度的声学特征，然后通过声码器把声学特征恢复成波形的整个流程如图1所示。原始的speech预处理后进行STFT转换，然后进行mel刻度表示，该步骤造成了相位信息的丢失，而且不可逆。声码器的任务就是把mel谱等特征上采样恢复时域波形