语音合成(TTS)论文优选:FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear predicti

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction

本篇文章出自腾,结合multiband-waveRNN和LPCENT框架提出了轻量级声码器Featherwave,文章更新时间2020.05.12,具体文章链接http://yqli.tech/pdf/tts_paper/FeatherWave%20An%20efficient%20high%20fidelity%20neural%20vocoder%20with%20multiband%20linear%20prediction.pdf

1 研究背景

最近几年,基于神经网络的TTS合成质量得到很大提高,但神经网络的复杂度成为落地的关键。现在的LPCNET虽然在复杂度已经为2.8GFLOPS,但很多场景依然无法落地,尤其在边缘设备,例如手机等移动设备。本文为了降低神经网络的复杂度,提出了基于LPCENT框架的轻量级FeatherWave。实验结果表明,该声码器在单核16k音频合成速度已经达到12倍实时,是LPCNET的两倍。而且在24khz上的MOS测评达到4.55(还是看相对比较更合理,原始的LPCENT在本文的mos为4.48,16k的为4.51。不知道什么原因,同事做该实验,但实验结果却没有达到这么好的结果,做过该实验的同行可以发邮件给我,相互交流一下)。

2 详细设计

首先,看一下DUIlAN这篇文章提出的multiband WaveRNN结构,如图4所示。该声码器首先对音频进行分带,然后输入到WaveRNN,该WaveRNN每次输出不再是一个点,而是输出subband的个数(常分为4个频带),最后进行merge band。(对于我这个非声学出来的学生,才接触语音领域两年,不太容易想出该方法)

语音合成(TTS)论文优选:FeatherWave

采用上边的思想和现在流行的声码器LPCNET框架,本文提出了轻量级声码器FeatherWave,具体的结构如下图1,架构跟现在原始的LPCNET相同,只是sample rate network变成了multiband,每次输出subband多个采样点。至于如何进行频带划分,可以参考QMF算法(语音信号的知识还是太深,我直接使用开源的脚本)。

语音合成(TTS)论文优选:FeatherWave

至于LPCNET使用的linear prediction,此时变成multi-band linear prediction(MB-LP)具体的公式如下:

语音合成(TTS)论文优选:FeatherWave

3 实验结果

本文章实验主要对比声码器的合成速度和MOS。首先,通过计算可得到FeatherWave时间复杂度为1.6GFLOPS,该值远小于现在的LPCENT 2.8GFLOPS。从实验结果可知:单核情况下,合成16k音频,FeatherWave合成速度是LPCNET的两倍多,24k的合成速度也几乎2倍(Table 1)。然后从MOS方面进行对比,FeatherWave的MOS比LPCNET稍高。

语音合成(TTS)论文优选:FeatherWave

语音合成(TTS)论文优选:FeatherWave

4 总结

本文提出了基于LPCENT框架的轻量级神经网络声码器FeatherWave,该声码器不仅合成速度提高两倍多,合成的质量比LPCNET也较优,真是好的声码器。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值