第四章 神经网络声码器
初代神经声码器WaveNet
WaveNet 是DeepMind 提出的一种深度学习声码器,2016 年 9 月的一篇论文中进行了概述[1],旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音(TTS)系统的语音质量提出的,其采用卷积神经网络生成音频波形,实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源,这使得它在实际应用中受到了限制。
为了解决 WaveNet 高计算成本的问题,后续研究推出了更加高效的模型,如 Parallel WaveNet、WaveRNN [2]和 WaveGrad[3]。
2018 年谷歌提出了针对实时语音合成优化的神经声码器模型WaveRNN, WaveRNN 的主要目的是在保留 WaveNet 模型高音质特性的同时,显著降低其计算复杂度,以适应实时处理的需求。
WaveRNN 推广使用单一循环神经网络(RNN),与 WaveNet 的多层卷积网络相比,WaveRNN 使用 LSTM 或 GRU 单元来捕捉长期依赖关系,这种简化的神经网络架构来减少计算需求,并有效地生成连续音频样本,这在计算和内存使用上都比 WaveNet 更高效。
WaveRNN 引入了一个技术,将网络分成两个较小的部分,分别负责处理高位和低位的随机变量。这种分拆大大减少了模型的参数数量和复杂度。
这里的WaveNet、WaveRNN以及