Tacotron模型是首个真正意义上的端到端TTS深度神经网络模型。与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用<文本序列,语音声谱>配对数据集对神经网络进行训练,因此简化了很多流程。然后Tacotron使用Griffin-Lim算法对网络预测的幅度谱进行相位估计,再接一个短时傅里叶(Short-Time Fourier Transform,STFT)逆变换,实现端到端语音合成的功能。Tacotron的总体架构如下图:
语音合成:Tacotron详解【端到端语音合成模型】【与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用<文本序列,语音声谱>配对数据集对神经网络进行训练,因此简化了很多流程】
于 2022-06-27 00:41:08 首次发布
Tacotron是首个端到端的TTS深度学习模型,它省去了复杂的语音学和声学特征模块,仅用文本和语音声谱数据训练。通过Griffin-Lim算法估计相位,再经STFT逆变换,实现语音合成。
摘要由CSDN通过智能技术生成