WAVEGRAD: ESTIMATING GRADIENTS FORWAVEFORM GENERATION

WAVEGRAD: ESTIMATING GRADIENTS FORWAVEFORM GENERATION

Abstract

This paper introduces WaveGrad, a conditional model for waveform generation which estimates gradients of the data density. The model is built on prior work on score matching and diffusion probabilistic models. It starts from a Gaussian white noise signal and iteratively refines the signal via a gradient-based sampler conditioned on the mel-spectrogram. WaveGrad offers a natural way to trade inference speed for sample quality by adjusting the number of refinement steps, and bridges the gap between non-autoregressive and autoregressive models in terms of audio quality. We find that it can generate high fidelity audio samples using as few as six iterations. Experiments reveal WaveGrad to generate high fidelity audio, outperforming adversarial non-autoregressive baselines and matching a strong likelihood-based autoregressive baseline using fewer sequential operations.

介绍了一种用于波形生成的条件模型WaveGrad,用于估计数据密度的梯度。该模型建立在分数匹配和扩散概率模型的基础上。它从高斯白噪声信号开始,并通过基于梅尔谱图的梯度采样器迭代地细化信号。WaveGrad提供了一种自然的方法,通过调整改进步骤的数量来交换样本质量的推理速度,并在音频质量方面弥合了非自回归模型和自回归模型之间的差距。我们发现它可以生成高保真音频样本,只需六次迭代。实验表明,WaveGrad可以生成高保真音频,优于对抗性非自回归基线,并使用更少的顺序操作匹配基于可能性的强自回归基线。音频样本可在https://wavegrad.github.io/上获得。

背景

1 INTRODUCTION

Deep generative models have revolutionized speech synthesis (Oord et al., 2016; Sotelo et al., 2017;Wang et al., 2017; Biadsy et al.,2019; Jia et al., 2019; Vasquez & Lewis, 2019). Autoregressive models, in particular, have been popular for raw audio generation thanks to their tractable likelihoods, simple inference procedures, and high fidelity samples (Oord et al., 2016; Mehri et al., 2017;Kalchbrenner et al., 2018; Song et al., 2019; Valin & Skoglund, 2019). However, autoregressive models require a large number of sequential computations to generate an audio sample. This makes it challenging to deploy them in real-world applications where faster than real time generation is
essential, such as digital voice assistants on smart speakers, even using specialized hardware.

深度生成模型已经彻底改变了语音合成(Oord等人,2016;Sotelo et al, 2017;Wang et al .,2017;Biadsy等人,2019;Jia et al.2019;Vasquez & Lewis,2019)。特别是自回归模型,由于其易于处理的可能性,简单的推理过程和高保真度样本,在原始音频生成中很受欢迎(Oord等人,2016;Mehri等,2017;Kalchbrenner et al, 2018;Song等人,2019;Valin & Skoglund, 2019)。然而,自回归模型需要大量的顺序计算来生成音频样本这使得在实际应用中部署它们变得具有挑战性,在实际应用中,即使使用专门的硬件,也必须比实时生成更快,例如智能扬声器上的数字语音助手

There has been a plethora of research into non-autoregressive models for audio generation, including normalizing flows such as inverse autoregressive flows (Oord et al., 2018; Ping et al., 2019), generative flows (Prenger et al., 2019; Kim et al., 2019), and continuous normalizing flows (Kim et al., 2020; Wu & Ling, 2020), implicit generative models such as generative adversarial networks (GAN)
(Donahue et al., 2018; Engel et al., 2019; Kumar et al., 2019; Yamamoto et al., 2020; Binkowski ´ et al., 2020; Yang et al., 2020a;b; McCarthy & Ahmed, 2020) and energy score (Gritsenko et al., 2020), variational auto-encoder models (Peng et al., 2020), as well as models inspired by digital signal processing (Ai & Ling, 2020; Engel et al., 2020), and the speech production mechanism (Juvela
et al., 2019; Wang et al., 2020). Although such models improve inference speed by requiring fewer sequential operations, they often yield lower quality samples than autoregressive models.

对音频生成的非自回归模型进行了大量研究,包括归一化流,如逆自回归流(Oord等人,2018;Ping等人,2019),生成流(Prenger等人,2019;Kimet al ., 2019)和连续规范化流(Kim et al ., 2020;Wu & Ling,2020),隐式生成模型,如生成对抗网络(GAN) (Donahue et al, 2018;Engel等人,2019;Kumar等人,2019;Yamamoto et al, 2020;Binkowski ’ et al,2020;Yang等,2020a;b;McCarthy & Ahmed,2020)和能量评分(Gritsenko等人,2020),变分自编码器模型(Peng等人,2020),以及受数字信号处理启发的模型(Ai &Ling, 2020;Engel等人,2020),以及语音产生机制(Juvela等人,2019;Wang et al .,2020)。虽然这样的模型通过需要更少的顺序操作来提高推理速度,但它们通常比自回归模型产生更低质量的样本

This paper introduces WaveGrad, a conditional generative model of waveform samples that estimates the gradients of the data log-density as opposed to the density itself. WaveGrad is simple to train, and implicitly optimizes for the weighted variational lower-bound of the log-likelihood.WaveGrad is non-autoregressive, and requires only a constant number of generation steps during
inference. Figure 1 visualizes the inference process of WaveGrad.

本文介绍了WaveGrad,这是一种波形样本的条件生成模型,用于估计数据对数密度的梯度,而不是密度本身。WaveGrad很容易训练,并且隐式优化对数似然的加权变分下界。WaveGrad是非自回归的,在推理过程中只需要固定数量的生成步骤。图1显示了WaveGrad的推理过程。

在这里插入图片描述
WaveGrad builds on a class of generative models that emerges through learning the gradient of the data log-density, also known as the Stein score function (Hyvarinen ¨ , 2005; Vincent, 2011). During inference, one can rely on the gradient estimate of the data log-density and use gradient-based samplers (e.g., Langevin dynamics) to sample from the model (Song & Ermon, 2019). Promising results have been achieved on image synthesis (Song & Ermon, 2019; 2020) and shape generation (Cai et al., 2020). Closely related are diffusion probabilistic models (Sohl-Dickstein et al., 2015), which capture the output distribution through a Markov chain of latent variables. Although these models do not offer tractable likelihoods, one can optimize a (weighted) variational lower-bound on the log-likelihood. The training objective can be reparameterized to resemble deonising score matching (Vincent, 2011), and can be interpreted as estimating the data log-density gradients. The model is non-autoregressive during inference, requiring only a constant number of generation steps, using a Langevin dynamics-like sampler to generate the output beginning from Gaussian noise.

WaveGrad建立在一类生成模型的基础上,该模型通过学习数据对数密度的梯度而出现,也称为Stein分数函数(Hyvarinen¨,2005;文森特,2011)在推理过程中,可以依赖于数据对数密度的梯度估计,并使用基于梯度的采样器(例如Langevin动力学)从模型中采样(Song & Ermon, 2019)。在图像合成方面取得了可喜的成果(Song & Ermon, 2019;2020)和形状生成(Cai et al .,2020)。与此密切相关的是扩散概率模型(Sohl-Dickstein等人,2015),它通过潜在变量的马尔可夫链捕获输出分布。虽然这些模型不能提供可处理的可能性,但可以优化对数可能性的(加权)变分下界。训练目标可以重新参数化,以类似于去化分数匹配(Vincent,2011),并且可以解释为估计数据对数密度梯度。该模型在推理过程中是非自回归的,只需要固定数量的生成步骤,使用类似朗格万动态的采样器从高斯噪声开始生成输出

The key contributions of this paper are summarized as follows:
(1)• WaveGrad combines recent techniques from score matching (Song et al., 2020; Song & Ermon,2020) and diffusion probabilistic models (Sohl-Dickstein et al., 2015; Ho et al., 2020) to address
conditional speech synthesis.
(2)• We build and compare two variants of the WaveGrad model; (1) WaveGrad conditioned on a discrete refinement step index, (2) WaveGrad conditioned on a continuous scalar indicating the noise level. We find that the continuous variant is more effective, especially because once the model is trained, different number of refinement steps can be used for inference.
(3)• We demonstrate that WaveGrad is capable of generating high fidelity audio samples, outperforming adversarial non-autoregressive models (Yamamoto et al., 2020; Kumar et al., 2019; Yang et al., 2020a; Binkowski et al. ´ , 2020) and matching one of the best autoregressive models (Kalchbrenner et al., 2018) in terms of subjective naturalness. WaveGrad is capable of generating high fidelity samples using as few as six refinement steps

本文的主要贡献总结如下:•
WaveGrad结合了分数匹配的最新技术(Song等,2020;Song & Ermon, 2020)和扩散概率模型(Sohl-Dickstein等,2015;Ho等人,2020)来解决条件语音合成。
•我们构建并比较了WaveGrad模型的两种变体;(1)以离散细化阶跃指标为条件的WaveGrad;(2)以指示噪声水平的连续标量为条件的WaveGrad。我们发现连续变量更有效,特别是因为一旦模型被训练,可以使用不同数量的细化步骤进行推理。
•我们证明了WaveGrad能够生成高保真音频样本,优于对抗性非自回归模型(Yamamoto等人,2020;Kumar等人,2019;Yang等,2020a;Binkowski等人,2020),并在主观自然性方面匹配最好的自回归模型之一(Kalchbrenner等人,2018)。WaveGrad能够生成高保真度的样本,只需6个细化步骤

2 ESTIMATING GRADIENTS FOR WAVEFORM GENERATION估计波形产生的梯度

我们首先简要回顾Stein分数函数、Langevin动力学和分数匹配。Stein分数函数(Hyvarinen¨,2005)是数据log-density 在这里插入图片描述相对于数据点y的梯度:
在这里插入图片描述
给定Stein分数函数 s(·),可以通过朗之万动力学从对应的密度在这里插入图片描述中提取样本,这可以解释为数据空间中的随机梯度上升:
在这里插入图片描述

式中在这里插入图片描述为步长,在这里插入图片描述, I表示单位矩阵。
生成模型可以通过训练神经网络来直接学习Stein分数函数,使用Langevin动力学进行推理。这种方法被称为分数匹配(Hyvarinen¨,2005;Vincent, 2011),在形象方面取得了成功(Song & Ermon, 2019;2020)和形状(Cai et al ., 2020)生成。去噪分数匹配目标(Vincent, 2011)的形式为:
在这里插入图片描述
其中 在这里插入图片描述 为数据分布, 在这里插入图片描述 为噪声分布。

最近,Song & Ermon(2019)提出了一种加权去噪分数匹配目标,其中数据受到不同程度高斯噪声的扰动,分数函数在这里插入图片描述 以所用噪声的标准差在这里插入图片描述为条件:
在这里插入图片描述
其中 在这里插入图片描述 是一组用于扰动数据的标准差值,在这里插入图片描述不同σ的加权函数WaveGrad是该方法的一个变体,用于学习形式在这里插入图片描述. 的条件生成模型。
WaveGrad学习数据密度的梯度,并使用类似于朗格万动力学的采样器进行推理。

去噪分数匹配框架依赖于噪声分布,为学习数据对数密度(即式3中的q)和N(·;
噪声分布的选择对于获得高质量的样本至关重要(Song & Ermon, 2020)。如图2所示,WaveGrad依赖于扩散模型框架(Sohl-Dickstein et al, 2015;Ho et al ., 2020)生成用于学习分数函数的噪声分布。
在这里插入图片描述

2.1 WAVEGRAD AS A DIFFUSION PROBABILISTIC MODEL

Ho等人(2020)观察到扩散概率模型(Sohl-Dickstein等人,2015)和得分匹配目标(Song & Ermon, 2019;文森特,2011;Song & Ermon, 2020)密切相关。因此,我们将首先介绍WaveGrad作为扩散概率模型。

我们调整了Ho等人(2020)中的扩散模型设置,从无条件图像生成到条件原始音频波形生成。WaveGrad对条件分布pθ(y0 j x)进行建模,其中在这里插入图片描述为波形,x包含与y0对应的条件特征,例如从相应文本导出的语言特征,从y0提取的mel-spectrogram特征,或由tacotron风格的文本-语音合成模型预测的声学特征(Shen et al, 2018)
在这里插入图片描述
其中,y1; : : ; yN 是一系列潜变量,每个潜变量的维度与数据 y0 相同,N 是潜变量(迭代)的个数。后验在这里插入图片描述被称为扩散过程(或前向过程),是通过马尔科夫链定义的:

在这里插入图片描述
where each iteration adds Gaussian noise:
在这里插入图片描述
在一定(固定常数)噪声计划下β1;:::;βN。我们强调Ho等人(2020)观察到的性质,扩散过程可以以封闭形式计算任意步长n:
在这里插入图片描述
在一定(固定常数)噪声计划下β1;:::;βN。我们强调Ho等人(2020)观察到的性质,扩散过程可以以封闭形式计算任意步长n:
在这里插入图片描述
where ∼ N (0; I), αn := 1 − βn and α¯n :=Qn s=1 αs. The gradient of this noise distribution is
在这里插入图片描述
Ho等人(2020)提出对训练在这里插入图片描述
,并重新参数化神经网络以建模θ。这个目标类似于公式3中的去噪分数匹配(Vincent, 2011):
在这里插入图片描述

其中在这里插入图片描述是与在这里插入图片描述相关的常数。在实践中,Ho等人(2020)发现去掉Cn项是有益的,从而产生对数似然的加权变分下界。此外,在Ho等人(2020), θ条件下的离散指标n,我们将在下面进一步讨论。我们还发现用L1代替原来的L2距离度量可以提供更好的训练稳定性。
在这里插入图片描述

2.2噪音时间表及噪音水平的调节

在分数匹配设置中,Song & Ermon (2019;(2020)指出了在训练期间选择噪声分布的重要性,因为它为建模梯度分布提供了支持。扩散框架可以看作是为分数匹配提供支持的一种具体方法,其中噪声调度由β1参数化;:::;βN,如前一节所述。这通常是通过一些超参数启发式方法确定的,例如,线性衰减时间表(Ho et al, 2020)。在我们的实验中,我们发现噪声调度的选择对于实现高保真音频至关重要,特别是当试图最小化推理迭代次数N以使推理效率更高时。噪声过多的时序可能导致模型无法恢复波形的低幅度细节,而噪声过少的时序可能导致模型在推理过程中收敛性差。Song & Ermon(2020)提供了一些关于在分数匹配框架下调整噪音时间表的见解。我们将把其中的一些见解联系起来,并在扩散框架下将它们应用到WaveGrad中。
另一个密切相关的问题是确定扩散/变色步骤的数量 N。大的 N 可为模型提供更大的计算能力,并可提高样本质量。然而 使用较小的 N 可以加快推理速度,降低计算成本。Song & Ermon(2019)使用 N = 10 生成 32 × 32 图像,而 Ho 等人(2020)使用 1,000 次迭代生成 256 × 256 高分辨率图像。256 × 256 高分辨率图像。在我们的案例中,WaveGrad 生成的音频采样频率为 24 kHz。
我们发现,同时调整噪声计划和N对于获得高保真音频至关重要,特别是当N很小时。如果这些超参数调优不好,训练抽样过程可能对分布提供不足的支持。因此,在推理过程中,当采样轨迹遇到偏离训练过程中看到的条件的区域时,采样器可能会收敛得很差。然而,由于需要训练和评估大量模型,由于搜索空间大,调优这些超参数的成本可能很高。我们进行实证观察,并在4.4节中对此进行更详细的讨论

我们在我们的WaveGrad实现中解决了上面的一些问题。首先,与Ho等人(2020)的扩散概率模型相比,我们将模型重新参数化,以连续噪声水平α¯为条件,而不是离散迭代指标n
在这里插入图片描述
在分数匹配框架中也使用了类似的方法(Song & Ermon, 2019;2020),其中它们以噪声方差为条件。
在这种方法中,我们必须解决一个小的技术问题。在以离散迭代指标(方程10)为条件的扩散概率模型训练过程中,我们将采样n ~ Uniform(f1;:::;Ng),然后计算其对应的αn。当直接对连续噪声电平进行调节时,我们需要定义一个可以直接对在这里插入图片描述进行采样的采样过程。回想α¯n:= Qn s(1−βs) 2 [0;1]。虽然我们可以简单地从均匀分布在这里插入图片描述,我们发现这给出了较差的实证结果。相反,我们使用一种简单的分层抽样方法来模仿离散抽样策略。我们首先定义一个具有S次迭代的噪声调度,并计算其所有对应的在这里插入图片描述
我们首先对一个片段在这里插入图片描述,它提供了一个段在这里插入图片描述,然后从这段中均匀抽样得到在这里插入图片描述。使用该采样过程的完整WaveGrad训练算法在算法1中进行了说明。
在这里插入图片描述
在这里插入图片描述

3 RELATED WORK

这项工作部分受到了Sohl-Dickstein等人(2015)的启发,他们将扩散概率模型应用于无条件图像合成,而我们将扩散概率模型应用于有条件的波形生成。我们使用的目标也类似于Song & Ermon(2019)的噪声条件分数网络(NCSN)目标。与 Song & Ermon(2019;2020)类似,我们的模型也以表示噪声水平的连续标量为条件。去噪分数匹配(Vincent,2011 年)和切片分数匹配 Song 等人(2020 年)也使用了类似的目标函数,但它们并不以噪声水平为条件。Saremi 等人(2018)在分数匹配方面的研究也与之相关,因为他们的目标考虑了噪声超参数。最后,Cai 等人(2020 年)将 NCSN 应用于形状生成的条件分布建模,而我们的重点是波形生成。

WaveGrad也与基于掩膜的生成模型密切相关(Devlin等人,2019;Lee et al, 2018;Ghazvininejad et al, 2019;Chan et al, 2020;
撒哈拉等人,2020),基于插入的生成模型(Stern等人,2019;Chan等人,2019b;a;c;Li & Chan, 2019)和基于编辑的生成模型(Sabour等人,2019;Gu et al ., 2019;Ruis等人,2019)在半自回归序列生成文献中发现。这些方法建模离散标记并使用编辑操作(例如,插入、替换、删除),而在我们的工作中,我们在连续输出空间中建模(连续)梯度。
基于编辑的模型也可以在推理过程中迭代地改进输出(Lee等人,2018;Ghazvininejad et al, 2019;Chan等人,2020),虽然他们不依赖于(连续的)基于梯度的采样器,但他们依赖于(离散的)基于编辑的采样器。噪声分布起着关键作用,基于Bernoulli (Devlin等人,2019)、均匀(撒哈拉等人,2020)或手工制作(Chan等人,2020)分布的令牌屏蔽已被用于学习编辑分布。
我们依赖于扩散框架中的马尔可夫链(Ho et al, 2020)来处理样本扰动。

我们注意到Kong等人(2020)的并行工作也将Ho等人(2020)的扩散框架应用于波形生成。他们的模型条件是离散迭代索引,而我们发现在连续噪声水平上的条件提供了更高的灵活性,并且可以生成只需六个改进步骤的高保真音频。相比之下,Kong等人(2020)报告了使用20个细化步骤的性能,并在基于真实mel-谱图的条件下评估了他们的模型。我们在Tacotron 2梅尔谱图预测的条件下评估WaveGrad,这与更现实的TTS设置相对应。
WaveGrad的神经网络架构很大程度上受到GAN-TTS的启发(Binkowski et al ', 2020)。WaveGrad的上采样块(UBlock)遵循GAN-TTS生成器,略有不同的是没有使用BatchNorm。

4 EXPERIMENTS

我们将WaveGrad与其他神经声编码器进行比较,并使用不同的噪声时间表进行消融。我们发现,WaveGrad在内部数据集(表1)和LJ Speech (Ito & Johnson, 2017)(表C.1)上实现了与Kalchbrenner等人(2018)(WaveRNN)的完全自回归最先进模型相同的样本质量,顺序操作较少。

4.1 MODEL AND TRAINING SETUP

我们使用专有的语音数据集来训练模型,该数据集由84名专业语音人才的385小时高质量英语语音组成。为了进行评估,我们在训练数据集中选择了一位女性演讲者。将语音信号下采样至24 kHz,然后提取128维梅尔谱图特征(50 ms汉宁窗,12.5 ms帧移,2048点FFT, 20 Hz和12 kHz上下频率截止)。在训练过程中, 使用从真实音频计算得到的梅尔频谱图作为条件特征x。然而,在推理过程中,我们使用Tacotron 2模型(Shen et al, 2018)生成的预测mel-谱图作为条件信号。虽然训练和推理之间的条件反射信号不匹配,但与Shen等人(2018)不同,初步实验表明,与使用预测特征的训练相比,使用真实mel-谱图作为条件反射的训练没有回归。这个特性非常有益,因为它大大简化了文本到语音模型的训练过程:WaveGrad声码器模型可以在大型语料库上单独训练,而不依赖于预训练的文本到频谱图模型。

模型大小:比较了两种网络大小变化:Base和Large。WaveGrad基础模型在训练过程中使用24帧对应0.3秒的音频(7200个样本)作为输入。我们将批处理大小设置为256。使用32张量处理单元(TPU) v2内核对模型进行训练。WaveGrad基础模型包含15M个参数。对于WaveGrad Large模型,我们将每个UBlock/DBlock重复两次,一次进行上采样/下采样,另一次没有。每个训练样本包含60帧,对应0.75秒的音频(18,000个样本)。我们使用相同的批处理大小,并使用128个TPU v3内核训练模型。WaveGrad Large模型包含23M个参数。Base和Large模型都训练了大约1M步。该网络结构是完全卷积和非自回归的,因此在训练和推理方面都具有高度并行性

噪音时间表:我们使用的所有噪音时间表可在附录B中找到。

4.2 EVALUATION

本实验使用以下模型作为基线:(1)WaveRNN (Kalchbrenner等人,2018)以教师强迫模式下Tacotron 2模型预测的mel-谱图为条件(Shen等人(2018);该模型使用具有1024个隐藏单元的单个长短期记忆(LSTM)层,具有512个通道的5个卷积层作为调理堆栈来处理梅尔谱图特征,并使用10组分混合逻辑分布(Salimans et al, 2017)作为输出层,在24 kHz下生成16位样本。它有18M个参数,训练了1M步。初步实验表明,进一步减少LSTM层的单元数会影响性能。(2) Parallel WaveGAN (Yamamoto et al, 2020),参数为1.57M,训练步数为1M。(3) MelGAN (Kumar et al ., 2019),参数为3.22M,训练步长为4M。(4)多波段MelGAN (Yang et al ., 2020a),参数2.27M,训练步长1M。(5) GAN-TTS (Binkowski et al ', 2020),参数21.4万个,训练步数1M。
所有模型都使用与WaveGrad模型相同的训练集进行训练。在原始论文的基础上,Parallel WaveGAN、MelGAN和Multi-band MelGAN以训练过程中在训练过程中使用了从真实音频计算得到的梅尔频谱图作为条件。他们在https://github.com/kan-bayashi/ParallelWaveGAN上接受了公开的培训。请注意,这些基线模型的超参数并未针对该数据集进行完全优化。
为了比较这些模型,我们报告了主观听力测试结果,根据附录d中描述的协议,以5分的平均意见评分(MOS)量表对语音自然度进行评分。使用Tacotron 2模型预测测试集的条件反射梅尔谱图,并将其传递给这些模型以合成音频信号。请注意,Tacotron 2模型与用于预测训练WaveRNN和GAN-TTS模型的mel谱图的模型相同。

4.3 RESULTS

主观评价结果汇总见表1。以离散指标为条件的模型遵循2.1节的公式,以连续噪声水平为条件的模型遵循2.2节的公式。WaveGrad模型与自回归WaveRNN基线的性能相匹配,并且优于非自回归基线。虽然增加模型大小会略微改善自然度,但差异无统计学意义。使用六次迭代的WaveGrad基础模型在NVIDIA V100 GPU上实现了0.2的实时因子(RTF),同时仍然实现了4.4以上的MOS。作为对比,WaveRNN模型在相同的GPU上实现了20.1的RTF,慢了100倍。更详细的讨论见4.4节。附录C包含使用相同模型架构和噪声时间表的公共数据集的结果。

4.4 DISCUSSION

为了了解不同噪音时间表的影响,并减少噪音时间表的迭代次数,我们探索了使用更少迭代的不同噪音时间表。我们发现一个行为良好的推理调度应该满足两个条件:
1.y_N 和标准正态分布 N(0, I) 之间的KL散度(DKL(q(y_N | y_0) || N(0, I))需要很小。大的KL散度会导致训练和推理之间出现不匹配。为了使KL散度小,某些 β 的值需要足够大。
2.这为模型训练提供了细粒度的细节,我们发现这对于减少背景静态噪声是至关重要的。
在本节中,所有的实验都是使用WaveGrad Base模型进行的。报告了客观评价和主观评价结果。客观评价指标包括

  1. 对数谱图均方误差度量(LS-MSE),使用50 ms窗长和6.25 ms帧移计算;
  2. Mel倒谱距离(MCD) (Kubichek, 1993),一个类似的MSE度量,使用13维Mel频率倒谱系数特征计算;
  3. F0帧误差(FFE) (Chu & Alwan, 2009),结合粗基音误差(Gross Pitch Error)和发声决策(voice Decision)度量估计基音与地面真值不同的信号比例。

由于需要地面真值波形来计算客观评价指标,我们使用地面真值mel-谱图作为条件特征来报告结果。我们使用了50个话语的验证集进行客观评估,包括来自多个说话者的音频样本。注意,对于MOS评估,我们使用了附录d中描述的相同的主观评估方案。我们实验了不同的噪声时间表和迭代次数。这些模型是在离散指数条件下训练的。主观和定量评价结果见表2。

我们还对表2底部连续噪声水平条件下的WaveGrad模型进行了详细研究。与以固定训练计划的离散指标为条件的模型(表2顶部)相比,以连续噪声水平为条件的模型泛化效果更好,特别是在迭代次数较少的情况下。从表2可以看出,经过6次迭代的模型的退化并不显著。经过六次迭代的模型在NVIDIA V100 GPU上实现了实时因子(RTF) = 0.2,在Intel Xeon CPU(16核,2.3GHz)上实现了RTF = 1.5。由于我们没有优化推理代码,进一步的加速是可能的。
在这里插入图片描述

5 CONCLUSION

在本文中,我们提出了WaveGrad,这是一种新的波形生成条件模型,用于估计数据密度的梯度,遵循扩散概率模型(Ho等人,2020)和分数匹配框架(Song等人,2020;Song & Ermon, 2020)。WaveGrad从高斯白噪声开始,并通过基于梅尔谱图的梯度采样器迭代更新信号。WaveGrad是非自回归的,在推理过程中只需要固定数量的生成步骤。我们发现该模型可以生成高保真音频样本,只需6次迭代。WaveGrad很容易训练,并且隐式优化对数似然的加权变分下界。实验证明了WaveGrad可以生成与强自回归基线匹配的高保真音频样本。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值