深度学习驱动的语音合成技术-CSDN博客

本文链接：https://blog.csdn.net/iceberg7012/article/details/118573999

本文介绍了语音合成技术，包括传统的统计参数和端到端的合成系统。端到端系统简化了流程，降低了对语言学知识的需求，适用于多语种合成。文中详细探讨了 Tacotron、DeepVoice 等深度学习模型在语音合成中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

语音合成，通常又称文语转换（Text To Speech，TTS），是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。
传统的语音合成系统 通常包含 前端和后端 两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息。对中文合成系统来说，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。
传统的语音合成系统的不足： 传统的语音合成系统，都是相对复杂的系统，比如，前端系统需要较强的语言学背景，并且不同语言的语言学知识还差异明显，因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解，由于传统的参数系统建模时存在信息损失，限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高，同时需要人工介入制定很多挑选规则和参数。
端到端语音合成系统： 直接输入文本或者注音字符，系统直接输出音频波形。端到端系统降低了对语言学知识的要求，可以很方便在不同语种上复制，批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。
语音合成根据应用的算法思想的不同，总体可以分为两类：基于统计参数的语音合成（传统）、基于深度学习的语音合成（端到端）。

一、传统语音合成系统

1. 总体框架

在这里插入图片描述

前端模块通常采用NLP（自然语言处理）提取文本的语言学特征；
后端模块一般分为基于统计参数建模的语音合成（Statistical Parameter Speech Synthesis，SPSS，以下简称参数合成），以及基于单元挑选和波形拼接的语音合成（以下简称拼接合成）两条技术主线。
参数合成： 在训练阶段对语音声学特征、时长信息进行上下文相关建模，在合成阶段通过时长模型和声学模型预测声学特征参数，对声学特征参数做后处理，最终通过声码器恢复语音波形。（优点：音库较小时，有比较稳定的合成效果；缺点：统计建模带来的声学特征参数过平滑，以及声码器对音质会有损伤。）
拼接合成： 通常也会用到统计模型来指导单元挑选，训练阶段与参数合成基本相同。在合成阶段通过模型计算代价来指导单元挑选，采用动态规划算法选出最优单元序列，再对选出的单元进行能量规整和波形拼接。（优点：可直接使用真实语音片段，最大限度保留语音音质；缺点：需要音库较大，无法保证领域外文本的合成效果。）

2. 基于统计参数的语音合成

2.1 系统流程图

在这里插入图片描述

首先利用特征提取器从文本中抽取语言学特征，然后统计生成模型（也称声学模型）从语言学特征中生成声学特征，之后另一个系统利用声学特征重建语音波形（这种系统被称作声码器）。
特征提取器的主要作业是生成语言学特征，以帮助声学模型生成更为准确的声学特征。
声学模型无法直接产生语音波形，其主要原因是，语音非常复杂且难以建模。因此声学模型一般输出梅尔频谱等中间形式表示，然后再由声码器根据中间形式表示语音。
声码器通过梅尔频谱等声学特征生成音频，需要将低维的声学特征映射到高维的语音波形，计算复杂度较高，因此波形波形恢复过程是语音合成系统提升效率的关键步骤之一。另外，由于声码器需要学习预测的信息量较大，因而也限制了最终的语音质量。