SINGAN: Singing Voice Conversion with Generative Adversarial Networks

会议:APSIPA 2019
作者:Berrak Sisman, Haizhou Li

1. abstract

singing VC是改变歌曲中的说话人音色,需要转换原始中的文本和情感信息(通过word和tone).
创新点:GAN网络来做这件事情,是首次将GAN引入到singing VC并取得比baseline更好的结果。

2. introduction

歌唱VC输入notes(音符,包含音高&时长)和lyrics(歌词),singing voice conversion is related to both singing voice synthesis and speech voice conversion.

  • 在speech VC中,prosody被认为是speaker-dependent的参数,因此需要转换
  • 在singing VC中,歌唱的风格石油the sheet music(乐谱?)决定的,因此认为是speaker-independent。
    本文主要做的是spectrum conversion。

深度学习在singing VC上的应用还不广泛,【30】用DBLSTM和PPGs做这个任务,缺点是依赖ASR的准确性。

本文用GAN做SVC,首次应用;比其他DL方法需要的数据量更少;可以免去其他预处理过程,合成高质量的歌声。

用平行数据,研究的是one-to-one的singing voice conversion.

3. GANS FOR SINGING VOICE CONVERSION

训练阶段
在这里插入图片描述

step1:WORLD提取spectral和F0
step2:DTW对source和target的特征做对齐
step3:对齐的特征用于模型训练
预测阶段
在这里插入图片描述

4. EXPERIMENTS

特征:
source和target的34-dMCEPs做0-1均值方差归一化,移除silence片段
F0, AP(5ms)

客观指标:MCD,SNR(信噪比)
主观指标:语音质量,语音相似度的MOS评分(都是7首歌比较)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值