论文笔记：DiffWave: A Versatile Diffusion Model for Audio Synthesis

雪色冥茫

已于 2023-08-10 17:24:01 修改

阅读量4k

点赞数 2

文章标签：论文阅读深度学习

于 2023-08-10 16:50:14 首次发布

本文链接：https://blog.csdn.net/Zongyouqiangu/article/details/132213043

版权

论文笔记：DiffWave: A Versatile Diffusion Model for Audio Synthesis

1. Introduction

以往的波形模型大多着眼于带有信息的局部调节器的音频合成任务，只有很少的一部分关注无条件生成；自回归模型（例如 WaveNet）倾向于在无条件情况下生成人造的类似单词的声音或劣质样本。

扩散模型可以用一个没有可学习参数的扩散(加噪)过程从训练数据中获得"白化"的潜变量。**因此，在训练中不需要引入额外的神经网络。**这避免了由两个网络联合训练而产生的具有挑战性的"后向崩溃"或"模式崩溃"问题。
在这里插入图片描述
DiffWave模型的几个优点：

它是非自回归的，可以并行合成高维波形。
它很灵活。与流模型相比，它不施加任何架构约束，这使得神经声码器占用空间小，但仍能生成高保真语音。
它使用单个基于 ELBO 的训练目标来进行高保真合成，没有任何辅助损失。
它是一种多功能模型，可为条件和无条件波形生成任务均生成高质量音频信号。

训练过程算法：
在这里插入图片描述

2. 快速采样

普通采样算法：

采样时最有效的去噪步骤发生在t = 0附近。 由此可以设计一个快速采样算法，使用比训练时用的T(如200)少得多的去噪步骤 $T_{infer}$ (如6)进行采样。

快速采样的核心思想是通过精心设计方差调度，将T步的反向过程"折叠"为 $T_{infer}$ 步过程。
在这里插入图片描述

$\gamma$ 与 $\eta$ ：

这里 $\gamma$ 对应公式（5）中的 $\alpha$ ， $\eta$ 对应 $\beta$ ，计算方式与公式（4）相同：

公式(4)(5)：
$\{\eta_t\}^{T_{infer}}_{t = 1}$ 为用户自定义的方差调度，可以独立于训练方差调度 $\{\beta_t\}^T_{t = 1}$ ，因此该快速采样算法不需要修改训练过程，只需重用训练好的T较大的模型检查点即可。
$t^{align}_s$

在采样过程的步骤s中， $\epsilon_\theta(\cdot,t)$ 中的 $t$ 是通过对齐来自 $\{\eta_t\}^{T_{infer}}_{t = 1}$ 和 $\{\beta_t\}^T_{t = 1}$ 的噪声水平 $\sqrt{\bar{\alpha}_t}$ 和 $\sqrt{\bar{\gamma}_s}$ 来实现的。理想情况下我们希望 $\sqrt{\bar{\alpha}_t}=\sqrt{\bar{\gamma}_s}$ ，但这并不总是可能的。因此在实际应用中要通过以下公式得到对齐的扩散步长t，记为 $t^{align}_s$ ：

如果 $\sqrt{\bar{\gamma}_s}$ 的大小介于两个连续的训练噪声水平 $\sqrt{\bar{\alpha}_{t+1}}$ 和 $\sqrt{\bar{\alpha}_t}$ 之间，则要对它们做插值得到 $t^{align}_s$ 。

3. DiffWave模型结构

DiffWave采用了WaveNet驱动的前馈双向空洞卷积架构，该网络是非自回归的，因此从隐元 $x_T$ 生成长度为L的音频 $x_0$ 需要进行 $T$ 轮正向传播，其中 $T$ (例如50)远小于波形长度 $L$ 。

DiffWave模型包括堆叠的 $N$ 个残差层，残差通道数为 $C$ ，这些残差层被分为 $m$ 个blocks，每个block包含 $n=\frac{N}{m}$ 层。每个残差层使用一个内核大小为3的双向空洞卷积，在每个block中的每一层上进行2倍膨胀，即 $1 , 2 , 4 , · · · , 2^{n-1}]$ 。最后对所有残差层的输出进行跳跃连接。
DiffWave模型架构图
在这里插入图片描述

3.1 扩散步长嵌入

将扩散步长 $t$ 作为输入的一部分是很重要的，因为模型需要对不同的 $t$ 输出不同的 $\epsilon_\theta(\cdot,t)$ 。

这里对每个扩散步长 $t$ 使用一个128维的编码向量：
在这里插入图片描述
然后对时间嵌入使用3个全连接层，其中前两个全连接层在所有的残差层之间共享参数，最后一个为残差层特定的FC，它将第二个FC的输出映射为C维嵌入向量。最后将这个嵌入向量在长度L上进行广播，并将其添加到每个残差层的输入中。
在这里插入图片描述

3.2 条件生成

在这里插入图片描述

局部调节器

这里将DiffWave作为基于mel语谱图的神经声码器进行测试。

首先通过转置的二维卷积将mel谱图上采样到与波形相同的长度。在一个层特定的1 × 1Conv将其mel - band映射到2C通道后，在每个残差层中添加该调节器作为空洞卷积的偏置项。
全局调节器

此时，条件信息由全局的离散标签给定。

对其使用维度 $d_{label} = 128$ 的共享嵌入，然后在每个残差层中用层特定的1 × 1Conv将 $d_{label}$ 映射到2C通道，并在每个残差层的空洞卷积后添加此嵌入作为偏置项。

3.3 无条件生成

在无条件生成任务中，模型需要在没有条件信息的情况下生成一致的语句。

网络的输出单元具有大于语句长度 $L$ 的感受野大小 $r$ 是很重要的。实际上我们需要 $r\geq2L$ ，由此最左边和最右边的输出单元具有覆盖整个 $L$ 维输入的感受野。
在这里插入图片描述
对于堆叠的空洞卷积层，输出的感受野大小为： $r=(k-1)\sum_id_i+1$ ，其中 $k$ 是内核大小， $d_i$ 是第 $i$ 层残差层的膨胀因子。作者发现使用更深的层和更大的膨胀周期会导致生成样本的质量下降，这对于WaveNet来说尤其如此。事实上，即使是中等大的感受野大小(如6139)在WaveNet中也没有得到有效的使用，它倾向于关注更短的上下文(如500)。