会议:2020 icassp
作者:Ryuichi Yamamoto,Eunwoo Song
单位:日本LINE,韩国Naver
开源代码
abstract
- PWG是一个非自回归的WaveNet,通过优化multi-resolution spec和对抗损失(多个stft窗),建模语音。
- 不需要传统的density distillation,因此更好训练
- 模型参数量1.44M,生成24khz音频时的GPU实时率28.68x
introduction
- NN-vocoder之前是基于WaveNet(自回归网络)或者teacher-student的结构。
- motivation: distillation-free的vocoder
- 贡献:
- stft loss + adversarial loss用于改进parallel wavenet,做 distillation-free PWG
- 免蒸馏,训练加速;推理时间也加速;
- 和Transformer-TTS集联,MOS分4.16
method
- 生成器预测采样点,采样点求多个win_size的fft loss
生成器目标函数
其中
multi-resolution loss