语音合成(TTS)论文优选:Bunched LPCNet:Vocoder for Low-cost Neural Text-To-Speech Systems

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

 

欢迎关注微信公众号:低调奋进

Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems

本篇文章主要工作是优化声码器LPCNET(把声学特征转换语音波形),出自三星人工智能研究中心,更新时间2020.8.11。具体的文章链接:http://yqli.tech/pdf/tts_paper/Bunched%20LPCNet%20-%20Vocoder%20for%20Low-cost%20Neural%20Text-To-Speech%20Systems.pdf

1 背景介绍

声码器LPCNET在音质和推理速度上在诸多的神经网络声码器中具有较明显的优势,因此很多研究机构和企业都使用该声码器。即使目前的LPCNET已经使用sparse和pre-compute方法进行提速,但依然无法在嵌入式设备上使用。LPCNET声码器主要由两部分构成(如图一):FRN(frame rate network) 和 SRN(sample rate network)。FRN和SRN特征是一对多的关系,其时间开销主要在SRN部分。SRN模块是自回归的推理,假如使用16k音频,其帧移为10ms,则FRN推一次则SRN需要推理160次。本文阐述SRN的主要时间开销在GRU和FC部分,时间开销分别占比85%和15%。针对以上开销较大的两个部分,文章提出了Sample bunching和Bit Bunching。

语音合成(TTS)论文优选:Bunched LPCNet

2 系统设计

本部分主要讲解sample bunching和bit bunching的设计。sample bunching的主要思想很简单,早在以前Gaussian LPCNET等文章就已经提到过,就是每次推理产生多于1个的采样点。该文章为了提高音质,设计如图2的结构,GRU部分都共享,FC和softmax是独享。但每个激励不是独立的,从第二个激励参数e的输入需要前一个e与gru输出进行拼接,该部分也是一个自回归的模式。而且gruA的输入不再输入一个点的信息,而是输入多个点的信息。该结构通过共享GRU部分,按理说该部分的推理速度正比于bunch sample的大小。

语音合成(TTS)论文优选:Bunched LPCNet

原来的系统bit为8,softmax为256。为了减小softmax,该部分提出了bit bunching(本篇文章主要使用B=11,分为(7,4),则softmax大小分别为(128,8)),就是用较小的softmax 来表示激励的高和低bit,具体如图3所示。

语音合成(TTS)论文优选:Bunched LPCNet

为了使更多的bit来对PCM的值进行u-law表示,文章提出了参数w=0.8进行控制,具体如下。

语音合成(TTS)论文优选:Bunched LPCNet

语音合成(TTS)论文优选:Bunched LPCNet

3 实验结果

本实验的 S和B分别代表sample bunching和bit bunching。其中s=1, b=(8,0)为原系统作为基准。table1对比了RTF(real time factor)和CR(complexity ratio),由结果可知,增大S和改变B,其速度提升很多。尤其S=4,B=(7,4)比S=1,B=(8,0)速度提高了差不多2倍。从Table 2和Table3的mos测试可知,提高S和B会造成MOS下降,在可接受范围内S=2选择较好。

语音合成(TTS)论文优选:Bunched LPCNet

语音合成(TTS)论文优选:Bunched LPCNet

4 总结

文章为提高lpcnet的速度提出sample bunching和bit bunching。在可接受的质量损失范围内,选择s=2较好,但我始终感觉bit bunching速度提升和造成质量损失的性价比不高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值