本次总结以下三篇论文:
-
SEQUENCE-TO-SEQUENCE SINGING SYNTHESIS USING THE FEED-FORWARD TRANSFORMER (2019-10-22收录)Universitat Pompeu Fabra
-
ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders(2020-04-23收录)ByteDance AI Lab
-
DeepSinger: Singing Voice Synthesis with Data Mined From the Web(2020-7-15收录)MicrosoftResearchAsia
第一篇来自庞培法布拉大学,作者已经发表过多篇关于歌声合成方面的论文,是歌声合成方向的先驱者。 后面简称为 S2S-Singing。
第二篇来自字节跳动AI Lab 放出的demo效果非常好 https://bytesings.github.io/
第三篇来自浙大与微软亚研,作者发表过多篇TTS方向的论文包括FastSpeech和FastSpeech2
概括介绍
先介绍一下各篇实验所用的数据量:
- S2S-Singing 使用41首英文歌曲,由专业男性歌手演唱。其中35首(总长度约1小时26分)作为训练集,4首作为验证集,剩下两首作为测试集。
- ByteSing 使用100首中文歌曲,由女性演唱。其中90首用作训练集(文中未说明长度,一般歌曲平均3分钟),10首用作测试集。
- deepSinger 由于不用精细标注,所以使用的数据比较多,对于中文歌曲,使用了10893句总长27小时的歌声,分别来自30位不同的歌手。对于英文歌曲,使用了7205句总长12小时,来自32位歌手的歌曲。还有粤语歌曲,包含10000句总长25小时,分别来自30位歌手。 其中每种语言,对于每个歌手挑5首歌曲,从其中挑出10