语音合成综述——亚洲微软谭旭《A Survey on Neural Speech Synthesis》上篇-CSDN博客

本文链接：https://blog.csdn.net/qq_35668477/article/details/119391527

受老师关怀、同学帮助，研一磕磕绊绊也算过去了，回过头来总结一下这一年入门不知道入没入进去的语音合成，正好从这篇大佬的综述理一理脉络，也算是研一的一个总结吧。
下图是本篇论文的结构框架图
在这里插入图片描述
论文从两个角度去总结这些年TTS语音合成的发展史，key components和advanced topics，因为文章很长，且我的知识储备并不能覆盖所有的模型，所以我会按照我的进度(较为热门易懂的端到端模型)去总结文章的上下两个部分（Sec2/Sec3），如有疏漏，请见谅。

1.先介绍TTS的合成发展史
1、Articulatory Synthesis最理想的合成方式，通过模拟人类发声器官，缺点是很难对发音行为建模，难以收集模拟数据，所以导致效果较差
2、Formant Synthesis语言学家参与的滤波器模型，尽可能模拟共振峰和频谱特性，模型由加法合成模块加声学模块组成，不依赖大数据库，但是效果偏差，规则无法指定
3、Concatenative Synthesis 使用语音片段句子到音节的发声单元不自然和情绪化
4、Statistical parametric synthesis统计参数模型，解决了3的缺点，先生成语音所需要的声学参数，然后从其中恢复波形，优点是自然性//灵活性//相较于3数据量减小，缺点是有杂音且不自然。
5、Neural speech synthesis 就是我们最熟知的神经网络模型，这个在后面是细分的大头，这里先按下不表了。
顺便提了一下4中的统计参数模型的组成，其原因是神经网络就是不断地取代一个或者几个部分的功能而推陈出新的
这张图就很好的展示了以下几个名词的关系这张图就很好的展示了几者的关系
①文本分析模块对文本进行处理，包括文本规范化、字音转换、分词等，然后从不同粒度中提取语音、持续时间和词性标签等语言特征。
②声学模型（例如，基于隐马尔可夫模型（HMM））使用成对的语言特征和参数（声学特征）进行训练，其中声学特征包括基频、频谱或倒谱等，并通过声码器分析从语音中提取。
③声码器根据预测的声学特征合成语音。

2.文本分析
这一部分在统计参数方面的用处极大，文本分析用于提取语言特征向量，并包含若干功能，如文本规范化、分词、词性（词性）标记、韵律预测(韵律预测。韵律信息，如语音的节奏、重音和语调，对应于音节持续时间、响度和音调的变化)和字音转换(数字，日期等),G2P(speech-sp iy ch)
在端到端的神经TTS中，由于基于神经的模型建模能力大，直接将字符或音素序列作为输入进行合成，从而大大简化了文本分析模块。在这种情况下，文本规范化仍然需要从字符输入中获取标准单词格式，而从标准单词格式中获取音素则需要进一步进行字形到音素的转换。尽管一些TTS模型声称完全端到端合成，直接从文本生成波形，但仍需要文本规范化来处理具有任何可能的非标准格式的原始文本，以供实际使用所以在工程中会有cleaner文件专门处理此项工作，在中文TTS合成中，还有专门的转拼音音素的操作和对数值型数据的读操作(10000和0.001怎么读)，韵律预测以fastspeech2为代表，对持续时间(韵律)、重音和能量等因素预测学习，然后使用MFA对文本转音素进行处理，起到了很好的合成效果和非自回归的合成速度

3.声学模型
声学模型旨在于生成声学的特征信息，在没有专家信息的指导时，参数统计方法会根据语言特征去预测一些声学特征的相干系数，如mel广义系数、F0基频信号等，但是这种方式也会带来一些问题，例如如何更好的联系上下文信息，如何建模输出帧的相关性，如何解决平滑带来的细节缺失问题，这些都在深度学习网络模型中得到了较好的解决，从CNN-RNN到LSTM-convbank再到CBHG的模型整合，深度学习都使得对于解决问题的方法越来越高效和简单。
然后我们再来总结一下深度学习模型的优点：
1 传统声学模型要求语言和声学特征之间的对齐，而基于序列到序列的神经模型则通过注意隐式地学习对齐，或者联合预测持续时间，这是一种端到端且需要较少预处理的方法。
2 随着神经网络建模能力的增强，语言特征被简化为仅字符或音素序列，声学特征已从低维和压缩倒谱（如MGC）转变为高维mel谱图或更高维线性谱图。
这里也有一张声学模型总结性的表格
在这里插入图片描述
4.声码器模块
这一部分的了解在下基本为0，只晓得Griffin-Lim，waveglow和hifigan等常用的声码器而已，要说感悟的话，最好针对自己的数据集自己训练一个声码器模型，这个对于最后音质的提升还是蛮大的，至于声码器合成速度上，倒没有特别的关注。
这里也贴上论文的图供大家观看。
在这里插入图片描述
5.完全的端到端模型
实现完全端到端模型的过程通常包含以下升级：
1 简化文本分析模块和语言功能。在SPSS中，文本分析模块包含不同的功能，如文本规范化、短语/单词/音节切分、词性标注、韵律预测、字形-音素转换（包括多音消歧）。在端到端模型中，仅保留文本规范化和字形到音素转换来将字符转换为音素，或者通过直接将字符作为输入来删除整个文本分析模块。
2 简化声学特征，将SPSS中使用的MGC、BAP和F0等复杂声学特征简化为mel谱图。
3 将两个或三个模块替换为一个端到端模型
这样做的优点也十分明显，既可以减少特征开发和训练的难度，又可以联合优化端到端避免级联模型存在的错误传递。

这一部分可讲的真的不多，大多数模型在训练时都会把文本到mel谱作为起点终点，本来声码器的训练也是过于浩大的，所以直接从文本到波形的实现可能比较艰难，当前本人了解的也不过Fastspeech2s这一个，论文也贴出了合成模型的层级，现在绝大多数模型存在于第三级，也就是不舍弃声学模型部分+声码器衔接。
在这里插入图片描述
以上大概就是论文上半部分的内容，至于具体到某个模型的例子，我会放到下篇来举例叙述，同时加上一些我的一些拙见，那下篇见。