语音合成（TTS)论文优选：HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis

最新推荐文章于 2023-03-08 15:36:35 发布

我叫永强

最新推荐文章于 2023-03-08 15:36:35 发布

阅读量772

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/111869276

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis

本篇文章主要是亚洲微软关于高质量音乐合成的研究，主要处理使用48kHz的音频数据带来的挑战，使合成的音乐质量更高，文章更新2020.09.03，具体的链接 https://arxiv.org/pdf/2009.01776.pdf

大家可以听一下demo，说实话真的很好

HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis - Speech Research

1 研究背景

高仿真的音频合成需要处理高采样率的音频数据，尤其是歌唱合成。相对于使用16kHz和24kHz的音频，使用48kHz的音频将会覆盖更宽的频带和更长的音频序列，这将给音频合成造成极大的挑战。本文针对使用48kHz音频带来的问题，提出了HiFiSinger，该系统由FastSpeech和parallel wavegan组成，同时提出SF-GAN（sub-frequecney GAN)和ML-GAN(multi-length GAN)来处理以上的两个问题，使合成的歌唱音频更自然。

2 详细设计

该系统由FastSpeech和Parallel wavegan组成，具体的如图1所示。音乐合成的输入是从歌词和乐谱提取的特征（如图一（a）的phoneme从歌词中转换，duration embedding 和pitch embedding从乐谱中提取），整个流程跟fastspeech差不多。不过因为使用48kHz的音频，因此80维的mel特征刻画的频带更广，因此本文提出了SF-GAN进行子带划分和辨别，具体如图一的（b)所示，把80维分为低中高三个频带（0~40，20~60，40~80），其目标函数为公式1和2。另外，为解决生成的音频序列增长的问题，本文对声码器添加ML-GAN，具体如图1的（c)所示，使用不同长度的音频进行辨别，其目标函数为公式3和4。另外本文也测试了使用特征pitch和v/uv，window/hop size 和larger receptive field对结果的影响。

3 实验结果

首先对比合成音质的MOS值，table1中的recording为原始音频，xiaoicesing是另一篇文章小冰的效果，baseline为FastSpeech和parallel wavegan，但没有使用SF-GAN和ML-GAN。HifiSinger为本文提出的各种优化策略，由结果显示，本文的方案得出的MOS值在相同的采样率情况下均是最高。

然后，分别对比每个模块的效果。首先验证SF-GAN的效果，由table2 可知对频带划分不是越多越好，当分5个时候，音质反而下降，本文使用3的效果最好。由图2的语谱图可以看出使用SF-GAN的语谱图跟ground truth最接近。

接下来，对比ML-GAN的效果。由table 3结果可知，单独使用一个长度都没有使用多个长度效果好，图3也展示使用ML-GAN的语谱图更好。

其次，由图4和table4显示使用pitch和v/uv输入特征，都能够提高合成效果。最后，table5和table 6显示不同window/hop size和声码器receptive fields对合成质量的影响。

4 总结

本文针对使用48kHz音频带来的问题，提出了HiFiSinger，该系统由FastSpeech和parallel wavegan组成，同时提出SF-GAN（sub-frequecney GAN)和ML-GAN(multi-length GAN)来分别处理频带增宽和音频序列增长带来的问题，使合成的歌唱音频更自然。

我叫永强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成（TTS)论文优选：HiFiSinger:TowardsHigh-Fidelity Neural Singing Voice Synthesis

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进HiFiSinger:TowardsHigh-Fidelity NeuralSingingVoiceSynthesis本篇文章主要是亚洲微软关于高质量音乐合成的研究，主要处理使用48kHz的音频数据带来的挑战，使合成的音乐质量更高，文章更新2020.09.03，具体的链接https://arxiv.org/pdf/2009...
复制链接

扫一扫