SLT2021: LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

最新推荐文章于 2024-09-20 23:31:36 发布

ruclion

最新推荐文章于 2024-09-20 23:31:36 发布

阅读量525

点赞数

分类专栏：研三-语音合成论文文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013625492/article/details/112973655

版权

LightSpeech是一种新型的轻量级非自回归多说话人语音合成系统，利用轻量级前馈神经网络加速合成并减少参数。与FastSpeech相比，LightSpeech在CPU上的Mel谱图生成速度提高了9.27倍，模型大小和参数分别压缩了37.06x和37.36x，同时能实现多扬声器语音合成。该系统通过深度卷积和动态卷积降低计算复杂度，使用知识蒸馏技术压缩模型，适合部署在资源有限的设备上。

摘要由CSDN通过智能技术生成

0. 题目

LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

轻量思必驰：轻量，非自回归的多说话者文本到语音

1. 摘要

随着深度学习的发展，端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。但是，这些系统大多数都是基于注意力的自回归模型，导致合成速度较慢且模型参数较大。在本文中，我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统，该系统利用轻量级前馈神经网络来加速合成并减少参数数量。通过嵌入多说话人向量，LightSpeech可以非常快速地实现多扬声器语音合成。在LibriTTS数据集上进行的实验表明，与FastSpeech相比，我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速，并且模型大小和参数分别压缩了37.06x和37.36x

关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network

端到端，多说话人语音合成，非自回归轻量级神经网络