SLT2021: LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER

Learn2Sing是一个无需目标说话者唱歌数据,仅依靠歌唱教师的模型,能生成目标说话者自然的歌声。通过自回归框架、领域对抗训练和LF0预测,解决说话与唱歌之间的差异,实现文本转歌声合成。
摘要由CSDN通过智能技术生成

0. 题目

LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER

学会唱歌: 目标说话人从一个歌唱老师那里学会唱歌(歌声合成)

1. 摘要

唱歌声合成已受到越来越多的关注 语音合成领域发展迅速。通常,为了从歌词和与音乐相关的录音, 乐谱等中产生自然的演唱声音,通常需要录音棚级的演唱语料库。但是,这样的语料库很难收集,因为我们很多人都很难像专业歌手一样唱歌。在本文中,我们提出了一种方法– Learn2Sing,该方法只需要唱歌老师即可生成目标演讲者的歌声,而无需他们(目标者, 学生)的歌声数据。在我们的方法中,使用自回归合成框架, 老师的歌唱语料库和多说话者语料共同训练,共享speaker embedding结构和空间, 共享韵律标签embedding向量。同时,由于目标说话人没有与音乐相关的转录,因此我们使用对数刻度基频(LF0)作为辅助功能,作为声学模型的输入,以建立统一的输入表示。为了使目标说话者在推理阶段无需参考歌声音频就可以歌声合成,还训练了持续时间模型和LF0预测模型。特别是,我们在声学模型中采用领域对抗训练(DAT),其目的是通过将风格与歌唱和说话数据的声学特征区分开来提高目标说话者的歌唱性能。我们的实验表明,仅给出正常说话的样本,该方法能够为目标说话者合成歌声

关键词: text-to-singing, singing voice synthesis, auto-regressive m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值