近期歌声合成论文总结 2020-8-7

本文总结了三篇关于歌声合成的深度学习论文,涉及模型包括S2S-Singing、ByteSing和DeepSinger。S2S-Singing利用feed-forward Transformer,适应性强但合成质量受限;ByteSing注重自然度和保真度,采用WaveRNN声码器;DeepSinger则提出多语言、多歌手的歌唱模型,利用数据爬取和自动对齐。各篇论文在数据量、输入输出特征和声码器上各有特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本次总结以下三篇论文:

  • SEQUENCE-TO-SEQUENCE SINGING SYNTHESIS USING THE FEED-FORWARD TRANSFORMER (2019-10-22收录)Universitat Pompeu Fabra

  • ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders(2020-04-23收录)ByteDance AI Lab

  • DeepSinger: Singing Voice Synthesis with Data Mined From the Web(2020-7-15收录)MicrosoftResearchAsia

第一篇来自庞培法布拉大学,作者已经发表过多篇关于歌声合成方面的论文,是歌声合成方向的先驱者。 后面简称为 S2S-Singing。
第二篇来自字节跳动AI Lab 放出的demo效果非常好 https://bytesings.github.io/
第三篇来自浙大与微软亚研,作者发表过多篇TTS方向的论文包括FastSpeech和FastSpeech2

概括介绍

先介绍一下各篇实验所用的数据量:
  • S2S-Singing 使用41首英文歌曲,由专业男性歌手演唱。其中35首(总长度约1小时26分)作为训练集,4首作为验证集,剩下两首作为测试集。
  • ByteSing 使用100首中文歌曲,由女性演唱。其中90首用作训练集(文中未说明长度,一般歌曲平均3分钟),10首用作测试集。
  • deepSinger 由于不用精细标注,所以使用的数据比较多,对于中文歌曲,使用了10893句总长27小时的歌声,分别来自30位不同的歌手。对于英文歌曲,使用了7205句总长12小时,来自32位歌手的歌曲。还有粤语歌曲,包含10000句总长25小时,分别来自30位歌手。 其中每种语言,对于每个歌手挑5首歌曲,从其中挑出10
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值