第四章 神经网络声码器

第四章 神经网络声码器

初代神经声码器WaveNet

WaveNet 是DeepMind 提出的一种深度学习声码器,2016 年 9 月的一篇论文中进行了概述[1],旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音(TTS)系统的语音质量提出的,其采用卷积神经网络生成音频波形,实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源,这使得它在实际应用中受到了限制。

在这里插入图片描述
为了解决 WaveNet 高计算成本的问题,后续研究推出了更加高效的模型,如 Parallel WaveNet、WaveRNN [2]和 WaveGrad[3]。

2018 年谷歌提出了针对实时语音合成优化的神经声码器模型WaveRNN, WaveRNN 的主要目的是在保留 WaveNet 模型高音质特性的同时,显著降低其计算复杂度,以适应实时处理的需求。

WaveRNN 推广使用单一循环神经网络(RNN),与 WaveNet 的多层卷积网络相比,WaveRNN 使用 LSTM 或 GRU 单元来捕捉长期依赖关系,这种简化的神经网络架构来减少计算需求,并有效地生成连续音频样本,这在计算和内存使用上都比 WaveNet 更高效。

WaveRNN 引入了一个技术,将网络分成两个较小的部分,分别负责处理高位和低位的随机变量。这种分拆大大减少了模型的参数数量和复杂度。

这里的WaveNet、WaveRNN以及

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shichaog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值