WangDeLiangReview2018 - (2)学习机器

最新推荐文章于 2024-09-27 19:00:00 发布

民工渣渣辉

最新推荐文章于 2024-09-27 19:00:00 发布

阅读量281

点赞数

分类专栏：语音Speech 文章标签：语音识别机器学习深度学习

本文链接：https://blog.csdn.net/FonFon27/article/details/114238057

版权

语音Speech 专栏收录该内容

14 篇文章 7 订阅

订阅专栏

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

5.1 语音增强(speech separation)

5.2 语音增强的泛化

5.3 语音去混响 & 去噪(speech dereverberation & denoising)

5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容

【正文】

过去的十年，DNN大幅提高了许多监督学习任务的性能，比如图像分类[28]，手写识别[53]，自动语音识别ASR(Automatic Speech Recognition)[73]，语言建模[156]，以及机器翻译[157]。DNN也大幅推进了监督分离性能的边界。本小节简要介绍用于监督分离的DNN种类：MLP，CNN(Convolutional Neural Network)，RNN(Recurrent Neural Network)，和GAN(Generative Adversarial Network)

神经网络中最普遍的模型是多层感知机MLP(Multi-Layer Perceptrons)，有着从输入层到输出风的前馈(feedforward)连接，一层接一层，连续的层之间全连接。MLP是Rosenblatt的感知机[142]的延申，在输入层和输出层之间引入了隐藏层。MLP通过经典的反向传播(backpropagation)算法进行训练，网络权重被调整，通过梯度下降(gradient descent)来最小化预测误差(prediction error)。预测误差由预测输出(predicted output)和期望输出(desired output)之间的损失函数(loss/cost function)测量，期望输出由用户提供作为监督。例如，当一个MLP用于分类时，一个广泛使用的损失函数是交叉熵(cross entropy)：

表示一个输出神经元， $p_{i,c}$ 表示i属于类别c的预测概率。N和C分别表示输出神经元的数目和类别的数目。 $I_{i,c}$ 是二值指示器，1对应i输出的期望类别是c，而0则相反。对于函数逼近(function approximation)，或者叫回归(regression)，一个普遍的损失函数是均方误差MSE(Mean Square Error)：

$\hat{y_i}$ 和 y_i 分别是神经元i的预测输出和期望输出。

MLP的建模表示能力随着层数的增加而增加，甚至更多，一个2层MLP可以从理论上逼近任何函数[70]。反向传播算法适用于任何深度的MLP。然而，有着很多隐藏层(hidden layer)的深度神经网络DNN(Deep Neural Network)很难从随机初始化的连接权重(weight)和偏置(bias)训练，即所谓的梯度消失(gradient vanishing)问题，亦即，在低层(靠近输入端)，通过高层反向传播误差计算的梯度，变得相当的小或者消失掉。梯度消失的结果是，低层的连接权重没有被充分调整，因此低层在训练中学习的很少。这解释了为什么只有1个隐藏层的MLP在DNN之前是神经网络中最广泛使用的。

Hinton对DNN训练做出了突破[74]。核心思想是，在监督训练，或者说微调(fine tuning)之前，用无标签数据(unlabeled data)实现层级(layerwise)的无监督(unsupervised)预训练(pretraining)来合理地初始化DNN。更确切的说，Hinton提出有限玻尔兹曼机RBM(Restrictive Boltzmann Machines)来对DNN一层一层做预训练，RBM预训练被发现能提升之后的监督学习。一个后来出现的方法是使用线性整形单元ReLU(Rectified Linear Unit)，来替代传统的sigmoid激活函数(activation function)，将神经元的输入权重之和做转换作为神经元的输出。最近的实践显示，适当深度的MLP使用ReLU可以有效地在大规模训练数据上训练，而无需无监督预训练。近年来，跳跃连接(skip connection)也被引入来使能具有很大深度的MLP[153][62]。

一类前馈网络，叫做卷积神经网络CNN(Convolutional Neural Network)[106][10]被证明可以很好的适应模式识别，尤其是在视觉领域。CNN包含已被充分证明的模式识别不变性(invariance)，例如平移(translation/shift)不变性一种典型的CNN结构是卷积层(convolution layer)-降采样层(subsampling layer)对的串联。卷积层包含多个特征图(feature map)，通过权重共享(weight sharing)，每一个去学习提取上一层中与位置无关的局部特征。同一模块额你的神经元被约束住，拥有相同的连接权重而不论感知域(receptive field)的不同。神经元的感知域，在本文中，指代的是来自上一层的一个连接着该神经元的局部区域，这里面的权重求和操作类似于卷积(convolution)或者更直接的说是互相关(correlation)。每个卷积层紧随着一个降采样层来对卷积层神经元的感知域做局部平均或者局部最大化。降采样(subsampling)目的是降低分辨率以及对于局部变化的敏感性。CNN中权重共享还利于削减待训参数(trainable parameters)的数目。由于CNN通过网络结构包含了模式识别的领域知识，它可以被反向传播算法更好的训练，尽管CNN是深度网络。

循环神经网络RNN(Recurrent Neural Network)允许循环/反馈连接(recurrent/feedback connections)的存在特别是隐藏单元内部。不像前馈神经网络那样对每个输入样本单独处理，RNN将输入样本看作序列并对变化做时序建模。语音信号呈现很强的时间结构(temporal structure)，当前帧内的信号收到上一帧信号的影响。因此，RNN是学习语音中时间动态特性的天然选择。注意到，RNN通过他的循环连接引入了灵活和可以无限延伸的时间维度，这是前馈网络所不具有的特性，无论他有多深[169]。某种程度上，RNN可以看作是无限深度的DNN[146]。循环连接通过时序反向传播BPTT(Backpropagation Through Time)[187]。然而，这样的RNN训练易受梯度消失/梯度爆炸的影响(gradient vanishing/exploding)[137]。为了环节这个问题，带有长短期记忆单元LSTM(Long Short Term Memory)的RNN引入了带有门(gate)的记忆单元(memory cells)，门可以控制信息随时间的流动[75]。特别的，记忆单元由3种门：输入门，遗忘门，输出门；输入门(input gate)控制当前的信息有多少应该被加入到记忆单元，遗忘门(forget gate)控制先前的信息有多少需要被保留。有了这些门闸函数，LSTM允许相关的上下文信息在记忆单元中被保留来提升RNN训练。

对抗神经网络GAN(Generative Adversarial Network)最近被提出，使用同时受训的模型：一个生成模型G(Generative Model)和一个判别模型D(Discriminative Model)[52]。生成器G(Generator)学习对标签数据建模，例如有噪语音样本到干净副本的映射关系，而判别器D(Discriminator)，通常是个二分类器，学习判别生成样本和来自训练数据的目标样本。这个框架和2个玩家的对抗博弈(adversarial game)相似，极大极小方法(minimax)被证明是一种策略[144]。训练时，G的目标是学习一个准确映射，使得生成数据可以很好的模仿真实数据来骗过D；另一方面，D学习去更好的分辨真实数据和G生成的合成数据之间的差异。在这个博弈中，或者叫做对抗学习(adversarial game)，趋势2个模型来提高他们的准确率(acc, accuracy)，直到生成的样本难以从真是样本中被区分开来。GAN的核心思想是用生成器来构造生成器的损失函数。GAN近年来已被用于语音增强。

在本文中，DNN指代的是任意至少有2个隐藏层的神经网络[10][73]，与其他广泛使用的的只有1个隐藏层的学习机器(例如广泛使用的MLP，有核SVM，和GMM)。鉴于实践中的DNN很深，实际使用甚至超过100个隐藏层，神经网络所需的深度可以是定性的，而不是定量的差别。另外，我们使用DNN这个概念来指代任何具有深度结构的神经网络，而不论他是前馈的还是循环的。

需要提及的是，DNN不是被用于语音分离的学习机器的唯一形式。其他用于监督分离的学习机器包括GMM[147][97]，SVM[55]，以及单1隐藏层的神经网络[91]，这些研究不会被展开讨论，因为主题是基于DNN的语音分离。