声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction
本文章是德国埃尔兰根Fraunhofer IIS2019发表的文章,文章主要对近几年比较流行的声码器进行实验对比,为相关从业者和研究者提供参考(个人感觉这种分享经验的文章很有意义,为其它研究人员提供参考价值,真正的知识开源分享,比提出新的架构更具有参考价值。当然,效果好坏只能作为一项评价标准,因为开源的代码实现不同,也会造成效果的差距。)具体的文章链接https://pdfs.semanticscholar.org/093a/804dc251dbd68b190918e180707bd1f66e4b.pdf
1 研究背景
近年来,TTS技术的发展受益于机器学习的发展,尤其神经网络声码器的提出,使TTS的合成质量提升了不止一个档次。虽然目前的神经网络声码器已经获得很大的突破,但或多或少的存在一些问题:高复杂度或者合成质量不高。本文对近年来提出的神经网络声码器,在计算复杂度和合成音频的质量两个方面进行比较,提供实验结果,供同行参考。
2 评测系统
目前的声码器主要是把低维度的声学特征进行上采样生成时域波形。从高维度时域波形提取低维度的声学特征,然后通过声码器把声学特征恢复成波形的整个流程如图1所示。原始的speech预处理后进行STFT转换,然后进行mel刻度表示,该步骤造成了相位信息的丢失,而且不可逆。声码器的任务就是把mel谱等特征上采样恢复时域波形