声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis
本篇文章主要是亚洲微软关于高质量音乐合成的研究,主要处理使用48kHz的音频数据带来的挑战,使合成的音乐质量更高,文章更新2020.09.03,具体的链接 https://arxiv.org/pdf/2009.01776.pdf
大家可以听一下demo,说实话真的很好
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis - Speech Research
1 研究背景
高仿真的音频合成需要处理高采样率的音频数据,尤其是歌唱合成。相对于使用16kHz和24kHz的音频,使用48kHz的音频将会覆盖更宽的频带和更长的音频序列,这将给音频合成造成极大的挑战。本文针对使用48kHz音频带来的问题,提出了HiFiSinger,该系统由FastSpeech和parallel wavegan组成,同时提出SF-GAN(sub-frequecney GAN)和ML-GAN(multi-length GAN)来处理以上的两个问题,使合成的歌唱音频更自然。
2 详细设计
该系统由FastSpeech和Parallel wavegan组成,具体的如图1所示。音乐合成的输入是从歌词和乐谱提取的特征(如图一(a)的phoneme从歌词中转换,duration embedding 和pitch embedding从乐谱中提取),整个流程跟fastspeech差不多。不过因为使用48kHz的音频,因此80维的mel特征刻画的频带更广,因此本文提出了SF-GAN进行子带划分和辨别,具体如图一的(b)所示,把80维分为低中高三个频带(0~40,20~60,40~80),其目标函数为公式1和2。另外,为解决生成的音频序列增长的问题,本文对声码器添加ML-GAN,具体如图1的(c)所示,使用不同长度的音频进行辨别,其目标函数为公式3和4。另外本文也测试了使用特征pitch和v/uv,window/hop size 和larger receptive field对结果的影响。
3 实验结果
首先对比合成音质的MOS值,table1中的recording为原始音频,xiaoicesing是另一篇文章小冰的效果,baseline为FastSpeech和parallel wavegan,但没有使用SF-GAN和ML-GAN。HifiSinger为本文提出的各种优化策略,由结果显示,本文的方案得出的MOS值在相同的采样率情况下均是最高。
然后,分别对比每个模块的效果。首先验证SF-GAN的效果,由table2 可知对频带划分不是越多越好,当分5个时候,音质反而下降,本文使用3的效果最好。由图2的语谱图可以看出使用SF-GAN的语谱图跟ground truth最接近。
接下来,对比ML-GAN的效果。由table 3结果可知,单独使用一个长度都没有使用多个长度效果好,图3也展示使用ML-GAN的语谱图更好。
其次,由图4和table4显示使用pitch和v/uv输入特征,都能够提高合成效果。最后,table5和table 6显示不同window/hop size和声码器receptive fields对合成质量的影响。
4 总结
本文针对使用48kHz音频带来的问题,提出了HiFiSinger,该系统由FastSpeech和parallel wavegan组成,同时提出SF-GAN(sub-frequecney GAN)和ML-GAN(multi-length GAN)来分别处理频带增宽和音频序列增长带来的问题,使合成的歌唱音频更自然。