FAST AND HIGH-QUALITY SINGING VOICE SYNTHESIS SYSTEM BASED ON CONVOLUTIONAL NEURAL NETWORKS_singing voice synthesis based on convolutional neu-CSDN博客

摘要

本文介绍了基于卷积神经网络（CNN）的歌声合成。当前提出的基于深度神经网络（DNN）的唱歌声音合成系统，并且改善合成唱歌声音的自然性。由于歌声代表着丰富的表达形式，因此需要一种强大的技术来准确地对它们进行建模。
在提出的技术中，歌唱声音的长期依赖性由CNN建模。为每个包含长期帧的片段生成一个声学特征序列，并且无需参数生成算法即可获得自然轨迹。
此外，提出了一种计算复杂度降低技术，该技术根据乐谱特征的类型以不同的时间单位驱动DNN。实验结果表明，该方法能够比传统方法更快地合成自然的歌声。

引言

深度神经网络是一种具有许多隐藏层的人工神经网络，在各种语音处理领域，如语音识别[1]、语音合成[2,3]和语音合成歌唱语音合成[4]，正在得到显著改进。在基于DNN的歌唱声音合成中，DNN作为一个声学模型工作，代表从乐谱特征序列（如语音、音符键和音符长度)到声学特征序列(如频谱、激发和颤音）的映射函数。与基于隐藏马尔可夫模型(HMM)的声学模型[5]相比，基于DNN的声学模型可以更有效地表现出乐谱特征序列和声学特征序列之间的复杂依赖关系。可以直接建模音频波形的神经网络，WaveNet [6], SampleRNN [7], WaveRNN [8], FFTNet [9]和WaveGlow [10]，目前正在提出中。与传统的声码器[11]相比，这些神经网络在语音领域的声码器，提高了合成语音的质量。神经声码器使用声学特征作为输入。因此，利用声学模型从乐谱特征中准确地预测它们仍然是产生高质量语音或歌声的一个重要问题。

都是废话

基于前馈DNN的声学建模[2]的一个局限性是不考虑语音的顺序性质。虽然语音数据中的连续帧之间确实存在相关性，但基于前馈DNN的方法假设每个帧是独立生成的。作为解决方案，RNN[12]，特别是长期短期记忆(LSTM)-RNN[13]，提供了一种优雅的方法来模拟体现短期和长期相关性的类语音序列数据。此外，该问题可以通过用语音参数生成算法平滑预测的声学特征来缓解[14]该算法利用动态特征作为约束来生成平滑的语音参数轨迹。另一方面，[15,16]提出了一些将语音数据的顺序性质纳入声学模型本身的技术。

还是废话

本文提出了一种利用CNN将乐谱特征序列逐段转换为声学特征序列的体系结构。该方法可以捕获歌唱声音的长期依赖关系，并且可以在不使用语音参数生成算法[14]的情况下生成自然轨迹。对CNNs的训练和声学特征的产生是快速的，因为在这种结构中没有递归结构。此外，提出了一种有效的技术，以减少计算复杂度在产生声学特征。

罗圈话

本文的其余部分的组织结构如下。相关工作详见第2节。第3节详细介绍了基于CNN的歌唱语音合成架构和计算复杂度降低技术。实验结果见第4节。我们总结了这些要点，并在第5节中提到了未来的工作。

套话

相关工作

基于DNN的歌唱合成

近年来，提出了几种基于DNN的歌唱语音合成系统[4,17,18,19,20]。在基本系统[4]的训练部分，从歌唱语音数据库中提取频谱参数(例如梅尔倒谱系数)、激励和 颤音：vibrato参数作为声学特征。颤音是一种歌唱的表达方式，其中音高（pitch）是周期性地摇动的。然后用训练良好的HMMs对音乐评分特征序列和声学特征序列进行时间对齐，并用DNNs对它们之间的映射函数进行建模。 歌唱声音的开始时间往往比相应音符的开始时间早。为了预测这种差异，[17]引入了时间滞后模型。 此外，还提出了一种 音乐音符水平的音高规范化技术musicalnote-level pitch normalization technique产生各种歌声，包括任意的音调[4]。在此技术中，对从波形提取的log F0序列与音符的音高之间的差异进行建模。在合成部分中，首先将包含要合成歌词的任意乐谱转换为乐谱特征序列，然后由经过训练的DNN映射到声学特征序列。接下来，语音参数是由最大似然参数生成(MLPG)算法[14]生成的。结果表明，通过考虑静态和动态特征[21]之间的显式关系，提高了生成语音的质量。最后，利用基于MEL对数谱近似(MLSA)滤波器[22]的声码器，从生成的参数合成了一个歌唱声音。

总结一下，传统的基于DNN的音乐合成系统和单纯的语音合成系统有如下差异
1、加入颤音作为声学特征
2、时间滞后模型
3、音符水平的音高规范化技术
4、基频与音高之间差异进行建模
5、MLSA合成器

2-2 建模语音的长期依赖关系

将神经网络应用于统计参数语音合成(SPSS)[23]的最简单的方法是使用前馈神经网络(FFNN)[2]作为深度回归模型，将语言特征直接映射到声学特征。这种架构的一个限制是语言特征和声学特征之间的一对一映射。[12]提供了一种优雅的方法来建模类似语音的序列数据，它体现了相邻帧之间的相关性。也就是说，以前的输入特征可以用于预测每一帧的输出特征。可以捕获长期依赖关系的LSTM-RNNs[13]已被应用于SPSS的声学建模。Fan等人。和费尔南德斯等人。应用深度双向LSTM-rnn，可以访问过去和未来帧的输入特征，为SPSS的声学建模，并报告了改进的自然性[24,25]。轨迹训练 （Trajectory training ）是捕获语音长期依赖关系的另一种方法。在基于DNN的系统中，尽管通常将帧级目标函数用于DNN训练，但是将序列级目标函数用于参数生成。为了解决训练和合成之间的这种不一致，在DNN的训练过程中引入了轨迹训练方法[26]。该方法也被应用于歌唱语音合成框架[17]。
基于RNN的系统的问题是，由于模型训练和参数生成的困难，它们需要时间。而轨迹训练方法的问题是，随着序列长度的增加，计算成本会显著增加。

主要介绍了解决建模时长依赖的两种方案，RNN和轨迹训练

2-3 考虑到声学特征的顺序性质

基于DNN的声学建模的一个局限性是，它没有充分考虑到声学特征的顺序性质。虽然这个问题可以通过使用语音参数生成算法[14]来平滑预测的声学特征来缓解，该算法利用动态特征作为约束来生成平滑的轨迹。然而，由于许多文本到语音(TTS)应用程序需要快速和低延迟的语音合成，一个存在的问题是MLPG算法在生成过程中导致的高延迟。Fan等人。声称深度双向LSTMrnn可以产生平滑的语音参数轨迹；因此，不需要平滑步骤[24]，而Zen等人。报告说，对单向LSTM-RNNs[2]进行平滑步骤仍然是必要的。
解决这个问题的一个有效方法是将语音数据的顺序特性合并到声学模型本身中。禅宗等人。提出了一个递归输出层[15]，而王等人。提出了一种卷积输出层[16]，以实现连续帧之间的平滑过渡，从而取代了MLPG。它们与单向LSTM一起实现自然声音语音和低延迟语音合成。

基于CNN的声乐合成

3-1 基于cnn的架构，用来捕捉歌唱声音的长期依赖关系

在建议的方法中，相对较长的音乐乐谱特征序列（相当于几秒钟到几十秒）被视为一个片段，由 CNN 同时转换为声学特征序列。传统的[4]与所提出的方法之间的区别如图1所示。
在这里插入图片描述
在提出的方法中，第一部分由等效于FFNN的1×1卷积层组成，并分别转换乐谱特征序列。 dropout 用于保持针对未知乐谱的鲁棒性。第二部分由1×n卷积层组成，其中第一部分的中间输出特征序列逐段转换为声学特征序列。声学特征的尺寸表示为输出特征的通道数。段的大小为1×T，其中T表示每个段中的帧数。由于使用完全卷积网络(FCN)[27]作为CNN结构，所以段大小T是可调的。这两个部分同时集成和训练。

3-2 不使用参数生成算法即可获得平滑参数序列的损失函数

网络输出的参数向量：
在这里插入图片描述
歌唱语音参数向量和静态特征向量序列的矢量形式如下：

目标函数：

全局相关的协方差矩阵：
该方法不仅考虑了中枢神经网络训练部分的静态特征和动态特征，也可以在没有参数生成算法的情况下生成自然轨迹。

3-3 计算复杂性的降低

由于基于DNN的声乐合成系统通常需要很高的计算复杂度，我们提出了一种计算复杂度降低技术，以保持合成声乐的自然性。尽管对歌曲，乐句，音符，音节，音素，状态和帧级别中的乐谱特征参数进行了相同的处理，但在计算复杂度方面，根据特征的时间分辨率分阶段输入它们是有效的。即，帧级功能应该在每个帧中被处理，而歌曲级功能应该只被处理一次。图1的右侧显示了建议的方法。在该方法中，由乐谱和状态数得到的特征被逐州转换，扩展到帧级，连接到帧级的位置参数上，然后由CNNs逐段转换为声学特征。因此，为每个状态驱动FFNN一次，可以大大降低计算复杂度。此外，由于声学特征序列是以由长期框架组成的片段单元产生的，因此合成自然的歌唱声音是可能的。
近年来，作为一种具有不同驱动水平的网络，在端到端语音合成系统[28,29]中使用了一种注意机制。在这种方法中，帧级的特征由声素级的中间特征的加权和生成，并用作解码器模块的输入。虽然希望在歌唱语音合成中使用这种机制，但注意机制需要大量的训练数据，并在合成过程中增加计算复杂度。另外，由于必须考虑乐谱中的音符时机，因此不能原样应用在文本合成中使用的注意力机制。因此，在提出的方法中，使用了由训练有素的HMM估计的单个维特比路径和从状态边界获得的帧级位置参数来代替注意力。

实验

4-1 实验条件

我们进行了两次测试来评价该方法的有效性。第一个测试是对传统方法和所提出的方法的合成声乐质量的评估。采用传统声码器和波网声码器从声学特征序列转换为歌唱声波形（TEST1）。另一个测试是评估计算复杂度与质量之间的关系（TEST2）。
训练中使用了55首日本儿童歌曲和55首女歌手的J-POP歌曲，测试中使用了其他5首J-POP歌曲。测试数据被分为几种短语，其平均长度为9.8秒。歌曲采样率为48k，帧移是5ms，16bit量化。特征向量由第0到第49个 straight[30] 的前峰系数、对数F0值、22维非周期度量和2维颤音参数组成。颤音参数向量由振幅和频率组成。对于log F0和颤音参数，对没有值的区域进行线性插值，并包括两个表示有声/无声以及有/无颤音的二进制标志。使用了包括724个用于分类上下文的二进制特征（例如，当前的音素标识和当前量度的键）和122个用于数字上下文的数字特征的输入特征（例如，当前音节中的音素数量和当前音符的绝对音高）。对DNN训练数据中的输入和输出特征进行标准化；输入特征在0.00-1.00以内，根据训练数据中的最小和最大值标准化输出特征在0.01-0.99以内。
由于音符的音调极大地影响了合成歌声，因此DNN的输入功能包括音符的 log F0参数。特别地，根据记录的歌声来调整音符的对准，并且使用表示音符音高的 log F0参数序列。对应于乐谱中的音乐休止符的 log F0参数序列的区域被线性插值。在初步的主观实验中证实了有效性。
基于FFNN的歌声合成系统[4]被用作常规方法。常规系统具有3个具有2048个单位的隐藏层，并使用概率为0.2的退出。声音特征及其动态特征（delta和delta-delta）是输出特征，并且使用MLPG算法获得平滑特征序列。在提出的系统中，第一部分包括3个FFNN的隐藏层。第二部分具有2个用于下采样的层，多个具有残差结构的层和2个用于上采样的层。在这些层中，滤波器大小为3，下采样层和上采样层的步幅为2。数据分为2000帧的片段，用于训练和生成，并在生成步骤中交叉淡化了100个相邻帧。在这两个系统中，ReLU激活函数用于隐藏层，而S形函数用于输出层。
使用五状态，从左到右，无跳跃，隐藏的半马尔可夫模型（HSMM）来获取处于训练状态的声学特征的时间对准，FFNNs根据训练数据的时间对齐来预测测试歌曲的状态持续时间。

4-2 试验1的实验结果

测试1中对平均意见评分(MOS)进行主观比较测试。计算复杂度的降低技术没有在测试中使用，采用基于MLSA的声码器[22]和WaveNet声码器[11]从声学特征序列转换为歌唱声波形。以48k赫兹采样，利用µ定律量化器[31]从16位量化到8位。基于梅尔倒谱的噪声形状和预滤波被应用于量化步骤[32]。用于调整噪声形状和预滤波的强度的参数设置为γ= 0.4，β= 0.2。 WaveNet模型的膨胀设置为1、2、4、… 512。堆放10层膨胀层。扩张通道、剩余砌块和跳过连接通道的尺寸分别为256、512和256。对自然度进行了5点MOS评价。15名受试者评估了每种方法从测试数据中随机选择的10个短语
图2显示了MOS评估的结果。FFNNV和FFNNW表示使用MLPG算法的传统系统，CNNV和CNNW表示所提出的系统。V和W分别是基于MLSA的声码器和WaveNet声码器
在这里插入图片描述

拟建的系统（CNNV和CNNW）优于传统的基于FFNN的系统（FFNNV和FFNNW），如图2所示。这些结果表明，通过模拟随时间依赖性的变化，大大提高了合成的歌声的自然性。此外，WaveNet声码器(FFNNW和CNNW)的得分分别比基于MLSA的声码器(FFNNV和CNNV)要好。CNNW的一些样本可以用来收听[33]。
生成的参数序列的一个例子如图3所示。对两种方法的比较表明，考虑动态特征的损失可以有效地得到光滑的参数序列。
在这里插入图片描述

4-3 试验2的实验结果

在TEST2中，测量了计算复杂度，并进行了MOS评估。在所有的方法中都使用了一个基于MLSA的声码器。英特尔酷睿i7-6700CPU用一个线程测量时间。对自然度进行了5点MOS评价。16名受试者评估了每种方法从测试数据中随机选择的10个短语。
图4和图5分别显示了计算复杂度测量和MOS评估的结果。FFNN(MLPG)代表了传统的系统。计算复杂度降低技术被用于CNNS、CNNM和CNNL，而不是用于CNNL（帧）。调整了CNNS和CNNM的模型尺寸，使计算时间分别为传统方法的5%和100%左右。CNNL和CNNL（帧）的模型尺寸和测试1中的CNNV组相同。在该方法中，CNNS的残余层数为5层，其他层为9层。除CNNS外，该方法的CNN部分被分为一个小CNN(CNN1)，输出可编辑参数(c0、对数F0、颤波振幅和频率)和一个大CNN(CNN2)，输出其他参数，在桂应用中立即绘制可编辑参数。
CNNS提高了它的自然性，尽管它的计算复杂性比FFNN降低到了约5%。与没有计算复杂度降低技术的相同尺寸的模型相比，CNNS、CNNM和CNNL的计算时间分别减少了约54%、38%和26%。对CNNL和CNNL帧)的比较表明，计算复杂度降低技术并没有降低自然性。

结论

在本文中，我们提出了一种基于CNN的歌唱语音合成的声学建模技术。包含丰富声音表达的歌声的长期依赖。将乐谱的声谱特征序列转换为逐段的声学特征序列，不使用传统的语音参数生成算法获得自然语音参数轨迹。我们还描述了一种计算复杂度降低技术。实验结果表明，该系统能产生更自然的合成歌声，并可以在不降低自然度的情况下降低计算复杂度。
未来的工作包括与基于RNN的方法进行比较，在TTS上评估所提出的架构，以及调整可供实际使用的参数。