声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders
本篇文章是总部ai实验室在2020.04.23更新的文章,主要做音乐合成,具体的文章链接https://arxiv.org/pdf/2004.11012.pdf 该文章的demo
https://bytesings.github.io/paper1.html (听起来还不错)
1 背景
音乐合成是根据语言特征和音乐特征合成歌曲,歌唱合唱技术是人机交互的各种应用程序中不可缺少的基本组件,例如虚拟化身,语音助手和智能电子设备等等。同时,歌唱合成系统可以与其他生成任务(如自动歌词和旋律生成)结合使用。多模式技术,歌唱合成和乐曲合成的组合越来越受欢迎。因此,对高保真,高自然度,更准确的歌唱算法的期望在将来会越来越高。本文提出基于类似tacotron +wavernn方案的歌唱合唱方案Byte