SLT2021: LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

LightSpeech是一种新型的轻量级非自回归多说话人语音合成系统,利用轻量级前馈神经网络加速合成并减少参数。与FastSpeech相比,LightSpeech在CPU上的Mel谱图生成速度提高了9.27倍,模型大小和参数分别压缩了37.06x和37.36x,同时能实现多扬声器语音合成。该系统通过深度卷积和动态卷积降低计算复杂度,使用知识蒸馏技术压缩模型,适合部署在资源有限的设备上。
摘要由CSDN通过智能技术生成

0. 题目

LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

轻量思必驰:轻量,非自回归的多说话者文本到语音

1. 摘要

随着深度学习的发展,端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。 但是,这些系统大多数都是基于注意力的自回归模型,导致合成速度较慢且模型参数较大。 在本文中,我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统,该系统利用轻量级前馈神经网络来加速合成并减少参数数量。 通过嵌入多说话人向量,LightSpeech可以非常快速地实现多扬声器语音合成。 在LibriTTS数据集上进行的实验表明,与FastSpeech相比,我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速,并且模型大小和参数分别压缩了37.06x和37.36x

关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network

端到端,多说话人语音合成,非自回归轻量级神经网络

2. 简介

近年来,端到端的文本语音转换(TTS)系统已经超越了传统的多级手动工程系统,简化了系统流程并提供了高质量的合成语音。 与传统的统计参数语音合成[1-5]相比,端到端TTS [6-11]直接通过纯神经网络学习文本到语音的映射,而无需复杂的文本前端处理和

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值