语音合成(TTS)论文优选:gaussian lpcnet for multisample speech synthesis

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

GAUSSIAN LPCNET FOR MULTISAMPLE SPEECH SYNTHESIS

该文章出自莫斯科华为,主要工作是对LPCNET进行性能优化(感觉这种方法还是不错的,主要对decoder部分进行优化,bunching lpcnet的sample bunching就是借鉴该篇文章),文章链接

http://yqli.tech/pdf/tts_paper/GAUSSIAN%20LPCNET%20FOR%20MULTISAMPLE%20SPEECH%20SYNTHESIS.pdf

1 研究背景

Lpcnet声码器自从被提出以来就受到工业界和学术界极大的关注。该声码器不仅能够合成较优的语音,而且其较低的复杂度使其可以在生产环境中落地。虽然LPCNet已经可以落地,但对其性能优化依然受到极大关注。本文章提出了基于Gaussian 采样方法和multisample多点采样的方法,使其在合成质量相当的前提下,其合成速度提高了1.5倍,该工作相当不错。

2 系统结构

LPCNET声码器使用了source-filter模型,只对激励e进行建模采样,采样点的公式如下

语音合成(TTS)论文优选:Gaussian Lpcnet

该系统结构如图1所示:系统主要分为encoder 和decoder部分,encoder部分求取每帧的参数,每一帧求取一次。decoder部分主要对采样点进行推理,其实主要对激励e进行采样,其LPC系数可以通过BFCC特征进行计算而来,该部分每个采样点进行一次推理。因为decoder结构是自回归结构,因此每一帧encoder需要decoder多次推理(例如帧移10ms,16k音频,encoder计算一次,decoder计算160次)。

语音合成(TTS)论文优选:Gaussian Lpcnet

本文章对encoder部分不做改变,只优化decoder部分。具体优化有两点。第一,使用Gaussian 采样替代原来的softmax。原来的音频需要进行u-law转换,使用8bit进行采样点表示,则softmax的维度则为256。本文使用gaussian直接对16bit进行采样,则采样部分由dualfc(256)+softmax(256)替换成fc1(128)+fc2(2)。另外文章提到不需要对音频进行加重处理。第二,本文章进行采样时每一步推理两个采样点(两点之间互不影响)。详细结构如图2:左边为原来LPCENT结构,右边为本文的guassian lpcnet的结构。

语音合成(TTS)论文优选:Gaussian Lpcnet

3 实验结果

本篇文章的实验也非常简单,对比两种系统的MOS和性能。table 1主要对比MOS值,其结果证明本文提出的系统合成质量跟原始的LPCNET结果相当。Table 2对比模型的大小和实时率,由结果可知,gaussian lpcnet的参数量更小,其合成实时更高,其速度比原始的lpcnet快1.5倍。

语音合成(TTS)论文优选:Gaussian Lpcnet

语音合成(TTS)论文优选:Gaussian Lpcnet

4 总结

本文章提出的Gaussian lpcent结果挺好,可以尝试使用。不过该文章的多采样点之间相互独立,这可能造成合成的音质不高,后来的文章bunched lpcnet提出的多采样点之间也是自回归模式,这样就显得很完美。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值