A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement
第一章 语音增强之《实时语音增强的卷积循环神经网络》
文章目录
前言
语音新手入门,学习读懂论文。
本文作者机构是美国俄亥俄州立大学认知与脑科学中心、汪德亮老师等
一、做了什么
文提出了一种新颖的卷积循环网络(CRN),用于实现实时单声道语音增强。我们将卷积编码器-解码器(CED)和长短时记忆(LSTM)结合到CRN架构中,从而得到一个因果系统,非常适合实时处理。
二、动机
语音分离旨在将目标语音从背景干扰中分离出来,背景干扰可能包括非语音噪声、干扰语音和室内混响[1]。语音增强是指语音和非语音噪声的分离。它具有各种实际应用,如鲁棒自动语音识别和移动语音通信。对于许多这样的应用程序,需要实时处理。换句话说,语音增强以低计算复杂度执行,提供近乎瞬时的输出。
三、挑战
1建立一个不需要借助后续信息的causal speech enhancement systems
2要解决说话人泛化问题,需要在训练集中包括大量的说话人。
四、方法
1. (Encoder-decoder with causal convolutions)具有因果卷积的编码-解码器
采用一个卷积编码器,然后是一个相应的解码器,该解码器馈送到softmax分类层。解码器的结构与编码器基本相同,但顺序相反,解码器将编码器输出端的低分辨率特征映射映射为完整输入图像尺寸的特征映射。对称编码器-解码器架构确保输出与输入具有相同的形状。elu应用于除输出层外的所有卷积和反卷积层。输出层,我们使用softplus激活,这是对ReLU函数的平滑逼近,可以约束网络输出始终为正。核数保持对称:在编码器中核数逐渐增加,而在解码器中核数逐渐减少。为了改善整个网络的信息流和梯度,我们利用跳跃式连接,将每个编码器层的输出连接到每个解码器层的输入。
为了获得实时语音增强的因果系统,我们在编码器-解码器架构上施加因果卷积。图1描述了一个因果卷积的例子。在因果卷积中,输出不依赖于未来的输入。
注:elu已被证明比relu具有更快的收敛性和更好的泛化性。
2. LSTM进行时间建模
卷积编码器-解码器不能利用上下文。LSTM[是一种包含记忆单元的特定类型的RNN,在声学建模和视频分类等各种应用中成功地进行了时间建模。LSTM的关键是细胞状态(cell state),它允许信息在不同时间步之间流动。在每个时间步,LSTM都会根据输入、上一个时间步的隐藏状态和细胞状态来计算输出和更新细胞状态。这一过程通过三个门控单元实现:遗忘门(forget gate)、输入门(input gate)和输出门(output gate)。采用以下方程定义LSTM。
xt、gt、ct和ht分别表示t时刻的输入、块输入、存储单元和隐藏激活。W和b分别表示权重和偏差。σ表示sigmoid非线性,表示逐元乘法。
3.网络体系结构
这里T表示STFT幅度谱中的时间帧数。本文以带噪语音的161维短时傅里叶变换(STFT)幅度谱作为输入特征,以纯净语音的STFT幅度谱作为训练目标。
在提出的网络中,五个卷积层作为编码器,五个反卷积层作为解码器,除输出层外全部使用elu作为激活函数,输出层使用softplus作为激活函数。在卷积或反卷积之后,激活函数之前要进行batch normalization。在编码器和解码器中间插入两个堆叠的LSTM层。
4. LSTM基线
建立了两个LSTM基线进行比较。LSTM-1模型在每个时间步长将11帧特征向量连接成一个长向量作为网络输入(如图3)。在LSTM-2模型中,没有使用特征窗口。LSTM-1分别有11 × 161、1024、1024、1024、1024、161个单元;LSTM-2分别有161、1024、1024、1024、1024、161个单位。这两个基线都没有使用未来的信息,这相当于因果系统。
五、实验评价
1.实验条件
我们在WSJ0 SI84训练集上对模型进行了评估,该训练集包括来自83位说话者(42位男性和41位女性)的7138个话语。在这些发言者中,有6名发言者(3名男性和3名女性)被视为未经训练的发言者。
噪声:
1)使用了来自音效库(可在 https://www.sound-i deas.com 上获得)的10000 个噪声进行训练
2)使用Auditec CD(available at http://www.auditec.com)的babble 和cafeteria两个噪声
2.实验结果
使用STOI和语音质量感知评价(PESQ)作为评价指标。
我们可以发现,对于未经训练的说话者,CRN的泛化效果很好。在最具挑战性的情况下,未经训练的说话者的声音与-5 dB的两个未经训练的噪声混合在一起,CRN比未处理的混合物产生18.56%的STOI改进和0.55 PESQ改进。
图4比较了不同模型在训练时期的训练和测试mse,其中模型是在六个未经训练的说话者的测试集上进行评估的。我们观察到,与两种LSTM模型相比,CRN的收敛速度更快,获得的均方差更低。
图5可看出与LSTM模型相比,CRN具有更少的可训练参数。这主要是由于在卷积中使用了共享权值。CRN具有较高的参数效率,比lLSTM更容易训练。
六、结论
在这项研究中,我们提出了一种卷积递归网络(CRN)来处理实时应用中的噪声和说话人无关的语音增强问题。所提出的模型构建了一个因果性语音增强系统,不利用未来的信息。评估结果表明,所提出的CRN在STOI和PESQ得分方面对于训练过和未训练过的说话人,都比两个强大的LSTM基线模型表现更好。此外,我们还发现CRN具有比LSTM更少的可训练参数。我们相信所提出的模型代表了一种强大的语音增强方法,适用于真实世界的应用,其中理想的特性通常包括在线操作、单声道操作以及噪声和说话人无关的模型。