深度学习非自回归语音合成与自回归语音合成对比

最新推荐文章于 2025-04-23 19:00:00 发布

原创最新推荐文章于 2025-04-23 19:00:00 发布 · 4.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #回归 #语音识别

语音合成专栏收录该内容

1 篇文章

订阅专栏

本文探讨了端到端自回归语音合成的 Tacotron 和 TransformerTTS 方法，以及它们的局限性，重点介绍了非自回归FastSpeech如何通过全并行架构解决速度和准确性问题。此外，文章还比较了声音质量和加速比，并讨论了FastSpeech在控制语速、避免重复漏词方面的改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、语音合成流程

二、端到端自回归语音合成

基于深度数据和对应的文本进行训练，无需繁琐的人工提取过程。可以合成非常学习的语音合成模型，直接使用非常学习的语音合成骂醒直接使用录音接近真实录音音质的语音。

Tacotron

Encoder:BLSTM

Decoder:BLSTM

Attention: Location sensitive attention（串行训练过程）

Input:Char/Phoneme（字符，音素）

Output:Mel-spectrograms

如何将文本转成Mel频谱

编码：将每一个字符进行编码（word embedding），进行context交互（双向LSTM），获取读音信息

交互：Location Sensitive Attention ,将两个模态中的数据进行连接

解码：经过几层LSTM生成Mel频谱。

LSTM是自回归结构，每一步会输入上一步的输出，并生成这一步的信息。

Transformer TTS

Encoder: Transformer Encoder
Decoder: Transformer Decoder
Attention: Multi-head Attention(并行训练过程）
Input: Phoneme
Output: Mel-spectrograms

Deep voice

Encoder: CNN blocks

Decoder: Causal CNN blocks

Attention: Attention

Input: Char+Phoneme

Output:Mel-spectrograms+World vocoder features

特点：输入和输出都有两种，采取不同声码器转成波形。

自回归方法语音合成缺陷

传统的端到端方法的合成速度非常慢，它在一些对速度和实时性要求较高的场合下较难应用，并且受限于合成速度，这种方法的扩展成本非常高，在高流量高并发的场景下很难提供稳定的服务。
传统的端到端语音合成会出现重复吐词或漏词现象，这对商用的语音合成系统来说是非常致命和难以容忍的。
传统的端到端方法无法细粒度地控制语速、韵律和停顿等。

如何解决这三大痛点？

三、非自回归语音合成方法——FastSpeech

FastSpeech使用全并行的非自回归架构，解决了生成速度慢的问题，同时引入知识蒸馏来使得生成音频的性能接近自回归模型。
FastSpeech引入了duration predictor来预测文本和频谱之间的强对齐，消除了生成语音的跳词、漏词等现象。
FastSpeech引入了length regulator来解决自回归模型的可控性问题。将文本与语音的隐特征建立联系。

声音质量

加速比

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。