微软
相关方向
- diffusion做双声道音频生成
- 旋律生成:直接生成/给定歌词生成旋律
- 歌曲识别:数据增广的方式修改现有说话的风格,减少和歌唱之间的gap
现有技术的改进点
前端
- Bert改进,使用phn & sup-phn信息,增强TTS context encoder的能力;
声学模型
- SSIM/laplace mix改进合成语音质量 (renyi也有文章2022ACL,博客也有记录)
- DelightfulTTS:Blizzard Challenge 2021,基于comformer做的,local&global dependence
- (1)声学模型生成16k mel, Hifinet-vocoder直接上采样到48k Hz;
- (2)显式特征(语言id,说话人id,pitch/duration), 隐式特征(utt-level, phn-level的韵律特征)
- DelightfulTTS2 (2022 interspeech)
- 联合训练:DelightfulTTS-encoder,VQ-GAN(decoder&vocoder)
- not mel(损失相位信息),VQ-GAN提取特征
小样本
- Adaspeech 4: zero-shot TTS