语音合成（TTS)论文优选：gaussian lpcnet for multisample speech synthesis

最新推荐文章于 2022-05-15 12:26:10 发布

我叫永强

最新推荐文章于 2022-05-15 12:26:10 发布

阅读量481

点赞数 1

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238075

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

GAUSSIAN LPCNET FOR MULTISAMPLE SPEECH SYNTHESIS

该文章出自莫斯科华为，主要工作是对LPCNET进行性能优化（感觉这种方法还是不错的，主要对decoder部分进行优化，bunching lpcnet的sample bunching就是借鉴该篇文章），文章链接

http://yqli.tech/pdf/tts_paper/GAUSSIAN%20LPCNET%20FOR%20MULTISAMPLE%20SPEECH%20SYNTHESIS.pdf

1 研究背景

Lpcnet声码器自从被提出以来就受到工业界和学术界极大的关注。该声码器不仅能够合成较优的语音，而且其较低的复杂度使其可以在生产环境中落地。虽然LPCNet已经可以落地，但对其性能优化依然受到极大关注。本文章提出了基于Gaussian 采样方法和multisample多点采样的方法，使其在合成质量相当的前提下，其合成速度提高了1.5倍，该工作相当不错。

2 系统结构

LPCNET声码器使用了source-filter模型，只对激励e进行建模采样，采样点的公式如下

语音合成（TTS)论文优选：Gaussian Lpcnet

该系统结构如图1所示：系统主要分为encoder 和decoder部分，encoder部分求取每帧的参数，每一帧求取一次。decoder部分主要对采样点进行推理，其实主要对激励e进行采样，其LPC系数可以通过BFCC特征进行计算而来，该部分每个采样点进行一次推理。因为decoder结构是自回归结构，因此每一帧encoder需要decoder多次推理（例如帧移10ms，16k音频，encoder计算一次，decoder计算160次）。

语音合成（TTS)论文优选：Gaussian Lpcnet

本文章对encoder部分不做改变，只优化decoder部分。具体优化有两点。第一，使用Gaussian 采样替代原来的softmax。原来的音频需要进行u-law转换，使用8bit进行采样点表示，则softmax的维度则为256。本文使用gaussian直接对16bit进行采样，则采样部分由dualfc(256)+softmax(256)替换成fc1(128)+fc2(2)。另外文章提到不需要对音频进行加重处理。第二，本文章进行采样时每一步推理两个采样点(两点之间互不影响）。详细结构如图2：左边为原来LPCENT结构，右边为本文的guassian lpcnet的结构。

语音合成（TTS)论文优选：Gaussian Lpcnet

3 实验结果

本篇文章的实验也非常简单，对比两种系统的MOS和性能。table 1主要对比MOS值，其结果证明本文提出的系统合成质量跟原始的LPCNET结果相当。Table 2对比模型的大小和实时率，由结果可知，gaussian lpcnet的参数量更小，其合成实时更高，其速度比原始的lpcnet快1.5倍。

语音合成（TTS)论文优选：Gaussian Lpcnet

4 总结

本文章提出的Gaussian lpcent结果挺好，可以尝试使用。不过该文章的多采样点之间相互独立，这可能造成合成的音质不高，后来的文章bunched lpcnet提出的多采样点之间也是自回归模式，这样就显得很完美。

我叫永强

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成（TTS)论文优选：gaussian lpcnet for multisample speech synthesis

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进GAUSSIAN LPCNET FOR MULTISAMPLE SPEECH SYNTHESIS该文章出自莫斯科华为，主要工作是对LPCNET进行性能优化（感觉这种方法还是不错的，主要对decoder部分进行优化，bunching lpcnet的sample bunching就是借鉴该篇文章），文章链接http://yqli.
复制链接

扫一扫