Wavenet学习笔记

资料概述

论文网址:1609.03499.pdf (arxiv.org)

学习视频:https://www.bilibili.com/video/BV1ZK4y1Z73J

wavenet的优势

  • Wavenet可以生成类似真人发音的语音,比以前模型都好。

  • 为了在语音生成中处理长跨度时间依赖问题,设计了一个新的扩大连接的卷积框架;该卷积框架有非常大的感受野。

  • 一个模型可以生成不同类别的声音。

  • 该模型可以用于语音识别以及音乐生成。

wavenet条件生成概率


p(x)=\sum^T_{t=1}p(x_t|x_1,...,x_{t-1})
 

类似于PixelCNN,条件分布概率是通过多层卷积层来建模的,网络中没有池化层。

因果卷积

采用因果卷积保证p(x_{t-1}|x_1,...,x_{t})不包含x_{t+1},x_{t+2},...,x_T中的信息。也就是指,当输入信号激励系统时,才会有输出信号的响应。也就是当前输出只与现在以及现在之前的输入有关,与未来的输入无关。

扩大卷积

声音文件是时间上的一维数组,即使堆叠很多层也只能使用很少的元素去生成(可以结合上图理解),为了扩大感受野所以提出扩大卷积的结构。扩大卷积的主要贡献是,在去掉池化下采样操作的同时,而不降低网络的感受野(池化会丢失一定的信息)。

上图以一个3*3的卷积为例,从上图示可以看出,红色圆点表示输入像素,绿色区域表示感受野。扩大卷积就是将输入张量为3*3的patch隔一定像素进行卷积运算。(如图b、c所示)这样可以保证去掉池化层也不会降低网络的感受野,从而确保语义分割的精度。

因果扩大卷积:将因果卷积以及扩大卷积相结合

优点:从原始的filter中生成更大的filter。

softmax distribution

因为原始音频是按照16-bit的整数值序列存储的,每个timestep,softmax层都需要输出65536个概率值。为了便于运算,我们应用了μ-law companding trandformation进行转换,将输出概率数目降低为256个。

f(x_t) = \text{sign}(x_t) \frac{\ln(1 + \mu |x_t|)}{\ln(1 + \mu)}

-1 < x_t < 1, \mu = 255

gated activation units

优点:可以增加非线性。在声音信号建模中,非线性比线性模型的效果更好

采用了类似于PixelCNN中的gated activation模块:


z = tanh(W_{f,k} * x) \otimes \sigma(W_{g,k} * x)

其中,*代表卷积操作,\otimes表示对应元素相乘操作。

residual and skip connections

利用了残差连接的结构来使模型更快的收敛,并且可以使梯度能够传到更深层的模型。模型深度越深,效果一般会越好。

上图中,输入可以分成两块相加,然后再分别经过激活函数再相乘。其中有两个输入,一个输入时来自于上一层的输入(左边小绿框),右边的输入就是condition条件的输入(右边小绿框)。

condition WaveNet:

接受额外的输入h,WaveNet可以对条件分布进行建模。下式较之前的最大区别为多了额外输入h。


p(x|h) = \sum_{t=1}^T p(x_t|x_1,\ldots,x_{t-1},h)

  • 全局方法:接受单额外输入h,该额外输入再所以时间点上影响模型输出。
    z = tanh(W_{f,k}*X+V_{f,k}^Th)\otimes(W_{g,k}*X+V_{g,k}^Th)

  • 局部方法:首先通过上采样y=f(h)将时间序列转化成和语音序列一样分辨率的新的实践序列。然后将其用于激活单元:
    z = \tanh(W_{f,k} * X + V_{f,k}^T y) \otimes \sigma(W_{g,k} * X + V_{g,k}^T y)

总结

WaveNet结合了因果卷积和扩展卷积方法,让感受野随着模型深度增加而成倍增加,感受野的增加对原始语音建模中长时间依赖非常重要。该神经网络不仅适用于原始语音数据的生成,也适用于文字生成(tex-wavenet),图像生成(image-wavenet)等。

  • 18
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值