声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
GAUSSIAN LPCNET FOR MULTISAMPLE SPEECH SYNTHESIS
该文章出自莫斯科华为,主要工作是对LPCNET进行性能优化(感觉这种方法还是不错的,主要对decoder部分进行优化,bunching lpcnet的sample bunching就是借鉴该篇文章),文章链接
http://yqli.tech/pdf/tts_paper/GAUSSIAN%20LPCNET%20FOR%20MULTISAMPLE%20SPEECH%20SYNTHESIS.pdf
1 研究背景
Lpcnet声码器自从被提出以来就受到工业界和学术界极大的关注。该声码器不仅能够合成较优的语音,而且其较低的复杂度使其可以在生产环境中落地。虽然LPCNet已经可以落地,但对其性能优化依然受到极大关注。本文章提出了基于Gaussian 采样方法和multisample多点采样的方法,使其在合成质量相当的前提下,其合成速度提高了1.5倍,该工作相当不错。
2 系统结构
LPCNET声码器使用了source-filter模型,只对激励e进行建模采样,采样点的公式如下
该系统结构如图1所示:系统主要分为encoder 和decoder部分,encoder部分求取每帧的参数,每一帧求取一次。decoder部分主要对采样点进行推理,其实主要对激励e进行采样,其LPC系数可以通过BFCC特征进行计算而来,该部分每个采样点进行一次推理。因为decoder结构是自回归结构,因此每一帧encoder需要decoder多次推理(例如帧移10ms,16k音频,encoder计算一次,decoder计算160次)。
本文章对encoder部分不做改变,只优化decoder部分。具体优化有两点。第一,使用Gaussian 采样替代原来的softmax。原来的音频需要进行u-law转换,使用8bit进行采样点表示,则softmax的维度则为256。本文使用gaussian直接对16bit进行采样,则采样部分由dualfc(256)+softmax(256)替换成fc1(128)+fc2(2)。另外文章提到不需要对音频进行加重处理。第二,本文章进行采样时每一步推理两个采样点(两点之间互不影响)。详细结构如图2:左边为原来LPCENT结构,右边为本文的guassian lpcnet的结构。
3 实验结果
本篇文章的实验也非常简单,对比两种系统的MOS和性能。table 1主要对比MOS值,其结果证明本文提出的系统合成质量跟原始的LPCNET结果相当。Table 2对比模型的大小和实时率,由结果可知,gaussian lpcnet的参数量更小,其合成实时更高,其速度比原始的lpcnet快1.5倍。
4 总结
本文章提出的Gaussian lpcent结果挺好,可以尝试使用。不过该文章的多采样点之间相互独立,这可能造成合成的音质不高,后来的文章bunched lpcnet提出的多采样点之间也是自回归模式,这样就显得很完美。