Wavenet学习笔记

2301_80487457

于 2024-03-17 20:18:37 发布

阅读量866

点赞数 18

文章标签：笔记语音识别学习

本文链接：https://blog.csdn.net/2301_80487457/article/details/136771184

版权

学习视频：https://www.bilibili.com/video/BV1ZK4y1Z73J

$p(x)=\sum^T_{t=1}p(x_t|x_1,...,x_{t-1})$

类似于PixelCNN，条件分布概率是通过多层卷积层来建模的，网络中没有池化层。

采用因果卷积保证 $p(x_{t-1}|x_1,...,x_{t})$ 不包含 $x_{t+1},x_{t+2},...,x_T$ 中的信息。也就是指，当输入信号激励系统时，才会有输出信号的响应。也就是当前输出只与现在以及现在之前的输入有关，与未来的输入无关。

声音文件是时间上的一维数组，即使堆叠很多层也只能使用很少的元素去生成（可以结合上图理解），为了扩大感受野所以提出扩大卷积的结构。扩大卷积的主要贡献是，在去掉池化下采样操作的同时，而不降低网络的感受野（池化会丢失一定的信息）。

上图以一个3*3的卷积为例，从上图示可以看出，红色圆点表示输入像素，绿色区域表示感受野。扩大卷积就是将输入张量为3*3的patch隔一定像素进行卷积运算。（如图b、c所示）这样可以保证去掉池化层也不会降低网络的感受野，从而确保语义分割的精度。

优点：从原始的filter中生成更大的filter。

因为原始音频是按照16-bit的整数值序列存储的，每个timestep，softmax层都需要输出65536个概率值。为了便于运算，我们应用了μ-law companding trandformation进行转换，将输出概率数目降低为256个。

$f(x_t) = \text{sign}(x_t) \frac{\ln(1 + \mu |x_t|)}{\ln(1 + \mu)}$

$-1 < x_t < 1, \mu = 255$

优点：可以增加非线性。在声音信号建模中，非线性比线性模型的效果更好

采用了类似于PixelCNN中的gated activation模块：

$z = tanh(W_{f,k} * x) \otimes \sigma(W_{g,k} * x)$

其中， $*$ 代表卷积操作， $\otimes$ 表示对应元素相乘操作。

利用了残差连接的结构来使模型更快的收敛，并且可以使梯度能够传到更深层的模型。模型深度越深，效果一般会越好。

上图中，输入可以分成两块相加，然后再分别经过激活函数再相乘。其中有两个输入，一个输入时来自于上一层的输入（左边小绿框），右边的输入就是condition条件的输入（右边小绿框）。

接受额外的输入h，WaveNet可以对条件分布进行建模。下式较之前的最大区别为多了额外输入h。

$p(x|h) = \sum_{t=1}^T p(x_t|x_1,\ldots,x_{t-1},h)$

全局方法：接受单额外输入h，该额外输入再所以时间点上影响模型输出。
$z = tanh(W_{f,k}*X+V_{f,k}^Th)\otimes(W_{g,k}*X+V_{g,k}^Th)$

局部方法：首先通过上采样y=f(h)将时间序列转化成和语音序列一样分辨率的新的实践序列。然后将其用于激活单元：
$z = \tanh(W_{f,k} * X + V_{f,k}^T y) \otimes \sigma(W_{g,k} * X + V_{g,k}^T y)$

WaveNet结合了因果卷积和扩展卷积方法，让感受野随着模型深度增加而成倍增加，感受野的增加对原始语音建模中长时间依赖非常重要。该神经网络不仅适用于原始语音数据的生成，也适用于文字生成（tex-wavenet），图像生成（image-wavenet）等。

关注