语音合成(TTS)论文优选:HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis

本篇文章主要是亚洲微软关于高质量音乐合成的研究,主要处理使用48kHz的音频数据带来的挑战,使合成的音乐质量更高,文章更新2020.09.03,具体的链接 https://arxiv.org/pdf/2009.01776.pdf

大家可以听一下demo,说实话真的很好

HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis - Speech Research

1 研究背景

高仿真的音频合成需要处理高采样率的音频数据,尤其是歌唱合成。相对于使用16kHz和24kHz的音频,使用48kHz的音频将会覆盖更宽的频带和更长的音频序列,这将给音频合成造成极大的挑战。本文针对使用48kHz音频带来的问题,提出了HiFiSinger,该系统由FastSpeech和parallel wavegan组成,同时提出SF-GAN(sub-frequecney GAN)和ML-GAN(multi-length GAN)来处理以上的两个问题,使合成的歌唱音频更自然。

2 详细设计

该系统由FastSpeech和Parallel wavegan组成,具体的如图1所示。音乐合成的输入是从歌词和乐谱提取的特征(如图一(a)的phoneme从歌词中转换,duration embedding 和pitch embedding从乐谱中提取),整个流程跟fastspeech差不多。不过因为使用48kHz的音频,因此80维的mel特征刻画的频带更广,因此本文提出了SF-GAN进行子带划分和辨别,具体如图一的(b)所示,把80维分为低中高三个频带(0~40,20~60,40~80),其目标函数为公式1和2。另外,为解决生成的音频序列增长的问题,本文对声码器添加ML-GAN,具体如图1的(c)所示,使用不同长度的音频进行辨别,其目标函数为公式3和4。另外本文也测试了使用特征pitch和v/uv,window/hop size 和larger receptive field对结果的影响。

3 实验结果

首先对比合成音质的MOS值,table1中的recording为原始音频,xiaoicesing是另一篇文章小冰的效果,baseline为FastSpeech和parallel wavegan,但没有使用SF-GAN和ML-GAN。HifiSinger为本文提出的各种优化策略,由结果显示,本文的方案得出的MOS值在相同的采样率情况下均是最高。

然后,分别对比每个模块的效果。首先验证SF-GAN的效果,由table2 可知对频带划分不是越多越好,当分5个时候,音质反而下降,本文使用3的效果最好。由图2的语谱图可以看出使用SF-GAN的语谱图跟ground truth最接近。

接下来,对比ML-GAN的效果。由table 3结果可知,单独使用一个长度都没有使用多个长度效果好,图3也展示使用ML-GAN的语谱图更好。

其次,由图4和table4显示使用pitch和v/uv输入特征,都能够提高合成效果。最后,table5和table 6显示不同window/hop size和声码器receptive fields对合成质量的影响。

4 总结

本文针对使用48kHz音频带来的问题,提出了HiFiSinger,该系统由FastSpeech和parallel wavegan组成,同时提出SF-GAN(sub-frequecney GAN)和ML-GAN(multi-length GAN)来分别处理频带增宽和音频序列增长带来的问题,使合成的歌唱音频更自然。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值