SLT2021: LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

0. 题目

LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

轻量思必驰:轻量,非自回归的多说话者文本到语音

1. 摘要

随着深度学习的发展,端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。 但是,这些系统大多数都是基于注意力的自回归模型,导致合成速度较慢且模型参数较大。 在本文中,我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统,该系统利用轻量级前馈神经网络来加速合成并减少参数数量。 通过嵌入多说话人向量,LightSpeech可以非常快速地实现多扬声器语音合成。 在LibriTTS数据集上进行的实验表明,与FastSpeech相比,我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速,并且模型大小和参数分别压缩了37.06x和37.36x

关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network

端到端,多说话人语音合成,非自回归轻量级神经网络

2. 简介

近年来,端到端的文本语音转换(TTS)系统已经超越了传统的多级手动工程系统,简化了系统流程并提供了高质量的合成语音。 与传统的统计参数语音合成[1-5]相比,端到端TTS [6-11]直接通过纯神经网络学习文本到语音的映射,而无需复杂的文本前端处理和各种语言功能 提取和广泛的领域专业知识。 但是,当前主流的端到端TTS系统大多采用各种注意机制来隐式学习文本到语音的对齐方式,这会带来很大的计算成本。 同时,在这些系统中使用自回归生成方式,这要求在前一个时间步中生成的语音帧作为后一个时间步的输入,从而使这些系统存在训练效率低的问题,不能并行合成语音

 

为了加速端到端语音合成,研究人员提出了一系列注意机制的替代方法,用于学习文本到语音的对齐方式以及自回归生

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值