0. 题目
LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH
轻量思必驰:轻量,非自回归的多说话者文本到语音
1. 摘要
随着深度学习的发展,端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。 但是,这些系统大多数都是基于注意力的自回归模型,导致合成速度较慢且模型参数较大。 在本文中,我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统,该系统利用轻量级前馈神经网络来加速合成并减少参数数量。 通过嵌入多说话人向量,LightSpeech可以非常快速地实现多扬声器语音合成。 在LibriTTS数据集上进行的实验表明,与FastSpeech相比,我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速,并且模型大小和参数分别压缩了37.06x和37.36x
关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network
端到端,多说话人语音合成,非自回归轻量级神经网络
2. 简介
近年来,端到端的文本语音转换(TTS)系统已经超越了传统的多级手动工程系统,简化了系统流程并提供了高质量的合成语音。 与传统的统计参数语音合成[1-5]相比,端到端TTS [6-11]直接通过纯神经网络学习文本到语音的映射,而无需复杂的文本前端处理和