0. 题目
LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH
轻量思必驰:轻量,非自回归的多说话者文本到语音
1. 摘要
随着深度学习的发展,端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。 但是,这些系统大多数都是基于注意力的自回归模型,导致合成速度较慢且模型参数较大。 在本文中,我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统,该系统利用轻量级前馈神经网络来加速合成并减少参数数量。 通过嵌入多说话人向量,LightSpeech可以非常快速地实现多扬声器语音合成。 在LibriTTS数据集上进行的实验表明,与FastSpeech相比,我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速,并且模型大小和参数分别压缩了37.06x和37.36x
关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network
端到端,多说话人语音合成,非自回归轻量级神经网络
2. 简介
近年来,端到端的文本语音转换(TTS)系统已经超越了传统的多级手动工程系统,简化了系统流程并提供了高质量的合成语音。 与传统的统计参数语音合成[1-5]相比,端到端TTS [6-11]直接通过纯神经网络学习文本到语音的映射,而无需复杂的文本前端处理和各种语言功能 提取和广泛的领域专业知识。 但是,当前主流的端到端TTS系统大多采用各种注意机制来隐式学习文本到语音的对齐方式,这会带来很大的计算成本。 同时,在这些系统中使用自回归生成方式,这要求在前一个时间步中生成的语音帧作为后一个时间步的输入,从而使这些系统存在训练效率低的问题,不能并行合成语音
为了加速端到端语音合成,研究人员提出了一系列注意机制的替代方法,用于学习文本到语音的对齐方式以及自回归生