最近在做GAN语音生成相关的东西,找了一些相关的最新的论文和资料,在这里做一个记录。
一、语音基础知识
在知乎上看到了一个比较详细的介绍,搬运过来:语音合成那些事
二、GAN合成语音(TTS)相关论文
1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).
投递2020 isscap,未公布代码
这篇文章介绍了一中新的免蒸馏、快速的、占空间小的语音生成器,起名叫parallel wavegan,平行wavegan,用到了非自回归模型,用到了wavenet作为生成器,对生成器loss这一块添加了多分辨率的stft损失,不需要密度蒸馏,达到了 比wavenet快几倍的素的。主要模型框架如下图:
2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks.