melGAN论文学习

最新推荐文章于 2024-10-22 13:47:53 发布

Rookie羊

最新推荐文章于 2024-10-22 13:47:53 发布

阅读量3.1k

点赞数 1

分类专栏：声码器

本文链接：https://blog.csdn.net/qq_28662689/article/details/105971998

版权

声码器专栏收录该内容

2 篇文章

订阅专栏

MelGAN：用于条件波形合成的生成对抗网络

摘要：

先前的工作（Donahue等人，2018a; Engel等人，2019a）发现，利用GAN生成连续的原始音频波形具有挑战性。在本论文中，我们表明通过引入一组体系结构更改和简单的训练技术，可以可靠地训练GAN以生成高质量的连续波形。主观评估指标（平均意见得分，或MOS）显示了所提出的方法对于高质量Mel谱图反演的有效性。为了建立所提出技术的通用性，我们在语音合成，音乐域翻译和无条件音乐合成中显示了模型的定性结果。我们通过消融研究评估模型的各个组成部分，并提出一套指导原则，以设计用于条件序列合成任务的通用判别器和生成器。我们的模型是非自回归的，完全卷积的，与对抗模型相比，参数要少得多，并且可以推广到说话人无关的梅尔谱图生成波形。我们的pytorch实施在GTX 1080Ti GPU上的运行速度比实时快100倍以上，在CPU上的运行速度比实时快2倍以上，而没有任何针对硬件的优化技巧。

一、介绍：

对原始音频进行建模是一个特别具有挑战性的问题，因为数据具有较高的时间采样率（通常至少为每秒16,000个样本），并且在不同时间尺度上存在具有短期和长期依赖性的结构。因此，代替直接对原始时间音频进行建模，大多数方法通过对可以从原始时间信号有效地计算的较低采样率表示进行建模来简化该问题。常选择这种表示形式以使其比原始音频更容易建模，同时保留足够的信息以保证生成的音频足够可信。言语而言，对齐的语言特征（Van Den Oord等人，2016）和Mel频谱图（Shen等人，2018; Gibiansky等人，2017）是两种常用的中间表示形式。因此，音频建模通常分为两个阶段。第一种对给定文本作为输入的中间表示进行建模。第二个将中间表示转换回音频。在这项工作中，我们将重点放在后期，并选择mel频谱图作为中间表示。当前的mel频谱图反转方法可分为三个不同的种类：（1）纯信号处理技术；（2）自回归神经网络；（3）非自回归神经网络。
我们在以下段落中描述了这三个主要研究领域：

1.1 纯信号处理方法：

已经探索了不同的信号处理方法以找到一些方便的低采样率的音频表示，这些表示既可以轻松建模，又可以有效地转换回时间音频。例如，Griffin-Lim（Griffin＆Lim，1984）算法允许人们以引入强大的机器计算为代价，有效地将STFT序列解码回时间信号，如Wang等人所述。（2017）。已经研究了更复杂的表示和信号处理技术。例如，WORLD声码器（MORISE et al。，2016）引入了一种中间类表示形式，专门针对基于类似于mel频谱图的特征的语音建模而设计。WORLD声码器与专用信号处理算法配对，以将中间表示映射回原始音频。它已成功用于进行文本到语音的合成，例如在Char2Wav中，其中WORLD声码器功能是通过基于注意力的递归神经网络建模的（Sotelo等人，2017; Shen等人，2018; Ping等人，2017）。这些纯信号处理方法的主要问题是，从中间特征到音频的映射通常会引入明显的伪像。

1.2 自回归神经网络：

WaveNet（Van Den Oord et al。，2016）是一个完全卷积的自回归序列模型，可生成高度逼真的语音样本，该样本基于与原始音频在时间上对齐的语言特征而定。它还能够生成高质量的无条件语音和音乐样本。SampleRNN（Mehri et al。，2016）是一种执行无条件波形生成的替代架构，该架构使用多尺度递归神经网络以不同的时间分辨率显式建模原始音频。WaveRNN（Kalchbrenner et al。，2018）是一种基于简单单层递归神经网络的更快的自回归模型。WaveRNN引入了多种技术，例如稀疏化和子尺度生成，以进一步提高合成速度。这些方法在文本到语音合成（Sotelo等人，2017; Shen等人，2018; Ping等人，2017）和其他音频生成任务（Engel等人）中产生了最先进的结果。，2017）。不幸的是，由于必须顺序生成音频样本，因此使用这些模型进行推断本质上是缓慢且效率低下的。因此，自回归模型通常不适合实时应用。

1.3 非自回归网络：

近来，已致力于开发非自回归模型以反转低采样率的音频表示。这些模型比自回归模型快几个数量级，因为它们具有高度可并行性，并且可以充分利用现代深度学习硬件（例如GPU和TPU）。已经出现了两种不同的方法来训练这种模型。1.） Parallel Wavenet（Oord等人，2017）和Clarinet（Ping等人，2018）将经过训练的自回归解码器提炼成基于流的卷积学生模型。使用基于Kulback-Leibler散度KL [Pstudent || Pteacher]的概率蒸馏目标以及其他感知损失项来训练学生。2.）WaveGlow（Prenger等人，2019）是基于流的生成模型，基于Glow（Kingma＆Dhariwal，2018）。WaveGlow是一种非常高容量的生成流，它由12个耦合和12个可逆1x1卷积组成，每个耦合层由8层膨胀卷积的堆栈组成。作者指出，要在单个扬声器模型上获得良好的质量结果，需要在8个GPU上进行为期一周的培训。尽管在GPU上推理速度很快，但是模型的庞大尺寸使其对于内存预算有限的应用程序不切实际。

1.4 GAN用于音频：

到目前为止，尚未针对音频建模探索的一种方法是生成对抗网络（GAN）（Goodfellow et al。，2014）。GAN在无条件图像生成（Gulrajani等，2017; Karras等，2017，2018），图像到图像翻译（Isola等，2017; Zhu等，2017; Wang等）方面取得了稳步进展等人，2018b）和视频到视频合成（Chan等人，2018; Wang等人，2018a）。尽管他们在计算机视觉领域取得了巨大成功，但我们还没有在看到在使用GAN进行音频建模方面很大的进步。Engel等人（2019b）使用GAN通过模拟STFT幅度和相位角来生成音乐音色，而不是直接模拟原始波形。Neekhara等（2019）建议使用GAN来学习从梅尔频谱图到简单幅度频谱图的映射，并将其与相位估计结合以恢复原始音频波形。山本等（2019）使用GAN提取了生成原始语音音频的自回归模型，但是他们的结果表明仅对抗损失不足以产生高质量的波形; 它需要基于KL发散的蒸馏物镜作为关键组件。迄今为止，使GAN在此领域中正常工作一直是一项挑战（Donahue等人，2018a）。

主要贡献

1 我们介绍了MelGAN，这是一种非自回归前馈卷积架构，用于在GAN设置中执行音频波形生成。就我们所知，这是第一项成功训练GAN的原始音频生成工作，而没有额外的蒸馏或感知损失功能，同时仍能产生高质量的文本到语音合成模型的第一项工作。

2 我们证明，通过通用音乐翻译，文本到语音生成和无条件音乐合成的实验，尽管质量稍有下降，但自回归模型可以很容易地用快速并行的MelGAN解码器代替，以生成原始波形。

3 我们还表明，MelGAN的速度明显快于其他mel谱图反演的替代方法。特别是，它比迄今为止最快的可用模型（Prenger等，2019）快10倍，而音频质量没有明显下降。

二、MelGAN模型

在本节中，我们描述了用于梅尔谱图反转的生成器和鉴别器体系结构。我们描述了模型的核心组件，并讨论了执行无条件音频合成的修改。我们在参数数量和在CPU和GPU上的推理速度方面，将提出的模型与对抗生成方法进行了比较。图1显示了整体架构。

2.1 生成网络

结构：我们的生成器是一个完全卷积的前馈网络，输入的频谱图为s，原始波形x为输出。由于梅尔频谱图（用于所有实验）的帧移采样率为256，因此我们使用一堆转置的卷积层对输入序列进行上采样。每个转置的卷积层后面是一堆带有膨胀卷积的残差块。与传统的GAN不同，我们的生成器不使用全局噪声矢量作为输入。我们在实验中注意到，当额外的噪声馈入发生器时，所产生的波形几乎没有感知差异。这是违反直觉的结果，因为s→x的求逆涉及一对多映射，因为s是x的有损压缩。但是，这一发现与Mathieu等人的观点一致。（2015）和Isola等。（2017年），这表明如果条件信息非常强，噪声输入并不重要。

感受视野：在基于卷积神经网络的图像生成器中，存在归纳偏差，即由于其感应光场之间的高度重叠，空间上接近的像素相互关联。我们设计了生成器结构，以产生一个归纳偏差，即音频每帧之间存在的时序相关性。我们在每个上采样层之后添加了带有扩张的残差块，以便每个后续层的每帧输出激活具有明显的重叠输入。堆叠膨胀的卷积层的感受视野随层数的增加而指数增加。与Van Den Oord等类似。（2016年），将这些纳入我们的生成器使我们能够有效地增加每个输出时间步长的感受视野。这有效地暗示了相距很远的时间步长的感应接收场中会有更大的重叠，从而导致更好的远程相关性。

卷积核问题：如Odena等人所述。（2016年），如果未仔细选择转置卷积层的内核大小和步幅，则反卷积生成器很容易生成“棋盘”模式。Donahue等人（2018b）对此进行了检查，以生成原始波形，并发现这种重复的模式会导致可听到的高频嘶嘶声。我们通过仔细选择反卷积层的卷积核大小和步幅来解决此问题，这是Donahue等人引入的PhaseShuffle层的更简单替代方案。（2018b）。继Odena等人（2016），我们使用内核大小作为跨度的倍数。如果未正确选择扩张和卷积核大小，则这种重复模式的另一个来源可能是扩张的卷积堆栈。我们确保膨胀随核大小的增长而增长，以使堆栈的接受域看起来像一个完全平衡（均匀地看到输入）且对称的树，核大小作为分支因子。

归一化技术：我们注意到，选择生成器的归一化技术对于样本质量至关重要。流行的用于图像生成的条件GAN架构（Isola等人，2017; Wang等人，2018b）在生成器的所有层中都使用实例归一化（Ulyanov等人，2016）。但是，在生成音频的情况下，我们发现实例归一化会带走重要的音高信息，使音频听起来具有金属感。如Zhang等人的建议，当在生成器上应用频谱归一化（Miyato等人，2018）时，我们也获得了较差的结果。（2018）;Park等。（2019）。我们认为，对判别器的强烈Lipshitz约束会影响用于训练生成器的特征匹配目标（在3.2节中进行了说明）。在所有可用的归一化技术中，权重归一化（WN）（Salimans和Kingma，2016）效果最好，因为它不会限制判别器的容量或对激活进行归一化。它只是通过将权重矢量的比例从方向上解耦来简单地重新配置权重矩阵，以具有更好的训练动态。因此，我们在生成器的所有层中使用权重归一化。
在这里插入图片描述

MelGAN模型结构：每个上采样层都是一个转置卷积，其内核大小是步幅的两倍（与该层的上采样率相同）。256x上采样分8个阶段进行，分别是8x，8x，2x和2x升采样。每个残差的扩张卷积堆栈都具有三层，其扩张1、3和9的内核大小为3，总感受野为27个时间步长。我们使用leaky-relu进行激活。每个判别器块具有4个步幅为4的跨步卷积。

2.2 判别网络

多尺度结构：继Wang等人（2018b），我们采用具有3个鉴别器（D1，D2，D3）的多尺度架构，这些鉴别器具有相同的网络结构，但在不同的音频规模上运行。D1以原始音频的规模运行，而D2，D3以分别降频2倍和4倍的原始音频运行。下采样使用内核大小为4的跨步平均池执行。由于音频具有不同级别的结构，因此激励了不同比例的多个判别器。这种结构具有归纳偏差，每个判别器都学习不同音频频率范围的特征。例如，判别器对下采样的音频进行操作，无法访问高频分量，因此，倾向于仅基于低频分量学习判别特征。

基于窗口判别：每个单独的判别器都是基于马尔可夫窗的判别器（图像补丁的类似物，Isola等人（2017）），由一系列大颗粒的跨步卷积层组成。我们利用分组卷积允许使用较大的内核，同时保持较小的参数数量。虽然标准GAN判别器学习在整个音频序列的分布之间进行分类，而基于窗口的判别器则学习在小音频块的分布之间进行分类。由于判别器损耗是在每个窗口非常大（等于判别器的感受视野）的重叠窗口上计算的，因此，MelGAN模型学会了在各个色块之间保持一致性。我们选择了基于窗口的判别器，因为它们已经显示出捕获基本的高频结构，需要较少的参数，运行速度更快并且可以应用于可变长度的音频序列。与生成器类似，我们在判别器的所有层中使用权重归一化。

2.3 训练

为了训练GAN，我们使用GAN的铰链损耗版本（Lim＆Ye，2017; Miyato et al。，2018）。我们还尝试了最小二乘（LSGAN）公式（Mao等人，2017），并注意到铰链版本略有改进。
$\min_{D_k}E_x[\max(0,1-D_k(x))] + E_{s,z}[\max(0,1+D_k(G(s,z)))], \forall k=1,2,3$
$\min_{G}E_{s,z}[\sum_{k=1,2,3}-D_k(G(s,z))]$
其中x代表原始波形，s代表条件信息（梅尔频谱图），z代表高斯噪声矢量。

特征匹配:除了判别器的信号外，我们使用特征匹配模式（Larsen等，2015）训练生成器。该目的使真实和合成音频的判别器特征图之间的L1距离最小。直观地，这可以看作是学习的相似性度量，其中判别器学习特征空间，该特征空间将假数据与真实数据区分开。值得注意的是，我们不会在原始音频空间中使用任何损耗。这与其他有条件的GAN（Isola等人，2017）相反，后者使用L1损失来匹配有条件生成的图像及其对应的真实数据，以增强全局一致性。实际上，在我们的案例中，在音频空间中增加L1损耗会引入可听噪声，从而损害音频质量。
$\mathcal{L}_{FM}(G,D_K)=E_{x,s \sim p_{data}}[\sum_{i=1}^\mathcal{T} \frac{1}{N_i}||D_k^{(i)}(x)-D_k^{(i)}(G(s))||_1]$
为了简化表示， $D^{（i）}_k$ 表示第 $k$ 个判别块的第 $i$ 层特征图输出， $N_i$ 表示每层中的单元数。特征匹配与感知损失相似（Dosovitskiy＆Brox，2016; Gatys等，2016; Johnson等，2016）。在我们的工作中，我们在所有判别器的每个中间层使用特征匹配。

们使用以下最终目标来训练生成器，如（Wang等人，2018b）中的λ= 10：
$\min_G(E_{s,z}[\sum_{k=1,2,3}-D_k(G(s,z))]+\lambda \sum^3_{k=1}\mathcal{L}_{FM}(G,D_k))$

2.4 参数数量和推理速度

在参数数量方面，我们架构中包含的归纳偏差使整体模型明显小于竞争模型。由于是非自回归且完全卷积的模型，因此我们的模型在推理时非常快，能够在2500kHz的频率下以全精度在GTX1080 Ti GPU上运行（比最快的竞争模型快10倍以上），在CPU上为50kHz（比最快的竞争产品快25倍以上）。我们认为我们的模型也非常适合硬件特定的推理优化（例如Tesla V100的半精度（Jia等人，2018; Dosovitskiy＆Brox，2016）和量化（如Arik等人（2017）所做的那样）），这将进一步提高推理速度，表1给出了详细的比较。

表1：参数数量和推理速度的比较。n kHz的速度意味着该模型每秒可以生成n×1000个原始音频样本。所有型号均使用相同的硬件进行基准测试。

在这里插入图片描述