语音合成(TTS)论文优选:DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System

本文章是北京工业大学,腾讯人工实验室和中国音乐学院在2020.08.07更新的文章,主要做普通音频和音乐进行转换(speech to sing),具体的文章链接如下https://arxiv.org/pdf/2008.03009.pdf

1 背景

歌唱合成是一项具有娱乐性的研究项目,但是很多使用者不会唱歌但想在朋友圈发一些自己的“歌唱”,因此本文的研究方向是把普通的音频转换成歌唱音频,应用场景还是有的。

2  详细的设计

本文在DurIAN(duration informed attention network)基础上提出了DurIAN-SC (sing conversion),本系统如图2所示主要包括三个部分:encoder, alignment module 和 decoder。其中encoder主要把音素序列转成隐向量。对齐模块则把音素级别根据时长扩展成帧级别的特征。最后,最回归模式的decoder根据对齐模块的输出进行逐帧推理。

该转换主要分为训练和转换阶段。训练阶段如图2所示,把歌唱和普通音频混在一起,然后提取特征RMSE,F0,Specker embedding(该模块是使用8000多人先训练好)和duration sequence。最后把提取的特征输入到DurIAN-SC进行训练。转换阶段如图3所示,提取歌声的RMSE,F0和duration sequence,提取目标说话人的Specker embedding,然后使用训练好的DurIAN-SC进行合成。

比较有意思的是以下公式,该公式是为了处理不同说话人之间f0范围不同,因此做了一个系数进行缩放,这点可以借鉴一下。

3 实验

先对比使用声纹d-vector和look up table对比,table 1显示使用声纹d-vector效果好(这里我想说一句,训练d-vetcor需要大量数据,而且好坏影响合成效果,还不如LUT联合训练)。

接下来对sing conversion进行对比,结果由table2显示,本文提出的系统可以把普通音频转成歌唱。

4 总结

本文的研究方向是把普通的音频转换成歌唱音频,而且仅仅需要20秒的音频就可以,效果还算不错,应用场景很酷。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值