深度学习【26】wavenet-歌声合成

最新推荐文章于 2023-11-17 11:44:25 发布

DCD_Lin

最新推荐文章于 2023-11-17 11:44:25 发布

阅读量5.5k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/linmingan/article/details/79483828

版权

论文:A NEURAL PARAMETRIC SINGING SYNTHESIZER
完整论文：A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs

之前研究过一段时间的wavenet语音合成。第一版wavenet的一个最大的问题是合成非常耗时，但是就有尝试过各种方案，包括了一帧一帧合成的方案。奈何打开方式不对，始终没搞出来。后来看到了这篇用wavenet合成歌声的论文，竟然还是一帧一帧合成的。由于没有开源，而且现在也没事时间去做语音合成的内容，先把论文的思想记录一下。
这里写图片描述
先看看论文方法的流程图。从图上我们很明显可以看出，模型的输入是语谱图，而语谱图是语音分帧后经过短时傅里叶变换再求得的。在原始的wavenet中，模型的输入是采样点量化到0-255，然后经过一个embeding层，使得一个点变成一个向量。所以说语谱图作为模型的输入跟原始wavenet的输入是很契合的。这里我们先不关心文本特征的输入。模型的输出是一个概率分布，要获取与语音相关的特征可以从这个概率分布中采样而来。

整个模型大致与原始的wavenet一样，只是最后的输出变成了概率分布。还有一点是，论文的整个方案是要预测用于world声码其合成的bap，mgc以及voiced/unvoiced。这些的训练是分开的，也就是每个都有对应的wavenet模型，但是在预测的时候是有一定的依赖关系。这点很重要，具体可以看论文。

ok，现在来看看模型的输出。假设模型预测的是bap，那么模型最终要预测的是4个点。同时假设用的是4个混合高斯函数（每个高斯函数由4个参数描述）来模拟每个点的分布，那么最终的网络输出是4×4×4=64个节点。

论文用的概率密度叫带约束的高斯混合模型：
这里写图片描述

其中， μk

最低0.47元/天解锁文章

DCD_Lin

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
深度学习【26】wavenet-歌声合成

论文:A NEURAL PARAMETRIC SINGING SYNTHESIZER 完整论文：A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs 之前研究过一段时间的wavenet语音合成。第一版wavenet的一个最大的问题是合成非常耗时，但是就有尝试过各种方案...
复制链接

扫一扫