PARALLEL GATED NEURAL NETWORK WITH ATTENTION MECHANISM FOR SPEECH ENHANCEMENT
第一章 语音增强之《具有注意机制的并行门控神经网络用于语音增强》
文章目录
前言
语音新手入门,学习读懂论文。
本文作者机构是南安普敦大学,英国
一、做了什么
本文采用序列到序列(S2S)映射结构,提出了一种新的单耳语音增强系统,该系统由特征提取块(FEB)、补偿增强块(ComEB)和掩码块(MB)组成。该方法利用U-net块提取具有单路径的复值谱的抽象特征,利用掩模方法抑制幅度域的背景噪声,而MB则从FEB中提取幅度特征,并补偿comb中丢失的复域特征,从而恢复最终清理后的语音。
二、动机
单通道语音增强(SE)的目的是恢复被背景噪声破坏的目标语音。以往大多数SE算法要么基于映射,要么基于屏蔽。近来,对SE提出了级联或多阶段的概念,因为中间先验可以通过将原始任务分解为几个子任务来增强优化。然而,每个子模型的性能受到限制,因为它们每个都只是增量地提高信噪比。
三、挑战
1.将幅度和相位优化解耦
2.语音质量与人类评分相关性较弱
四、方法
1.模型图
特征提取块(FEB)、掩码块(MB)、复值增强块(ComEB)和补偿块(CB)。
2.特征提取块
u块模块取代传统的二维卷积层,我们使用LSTM作为中间层,以减轻信息丢失。它采用ConvTasnet骨干网,由门控线性单元(GLU)、层归一化(LN)、ELU激活函数和带残差连接的u块组成。这种结构有两个优点,一是U-block可以掌握帧间的多尺度信息,这意味着能够更好地捕捉上下文特征。二是二维GLU可以过滤掉一些干扰信息,保留有用的细节。
3.掩码块
掩码块(MB)由编码器、解码器和堆叠门控残差单元(gru)组成,如图3所示。我们在编码器和解码器中分别使用了5个子层。编码器的子层包含一个具有批处理归一化的1D卷积层,并利用ELU激活函数。在中间层,门控残差模块堆叠形成门控残差网络。每个GRU中,我们分别在频率和时间维度上使用多头自注意。
采用ResNet拓扑的MB架构
4.复数增强块
comb的结构与掩模块(Mask Block, MB)基本相同,但掩模块具有复杂的域特征,GRU没有使用注意机制,而是用扩张卷积代替了注意机制。
一维扩张卷积可以得到更大的感受野,获得更丰富的语音上下文特征信息,能够更好地挖掘序列中的信息依赖关系。comb同时考虑了幅度和相位信息,从而更有效地缓解语音失真。
5.补偿块
五、实验评价
1.loss
平均绝对误差函数(MAE)
∥。∥表示向量的绝对值,(Rn−1,In−1)和(Rn, In)分别表示第(n−1)帧的原始语音和第n帧的增强语音的振幅谱向量。
使用语音评价指标-尺度不变信失真比(SI-SDR)作为网络的训练函数,增强语音的客观指标将显著提高。Sn和Sn分别表示第n帧的原始幅度和增强幅度。A是纯语音的权重因子。
2.数据集
ibrisspeech语料库[和Voice Bank+DEMAND数据集。训练数据集选择了6500个干净的话语,为验证数据集选择了400个干净的话语,这些话语的信噪比为[-5dB, -2dB, 0dB, 2dB, 4dB, 5dB, 6dB, 10dB]。DNS-Challenge噪声集[24]中选取约20000个噪声进行训练。STFT的帧大小和帧移位分别设置为512和256。
3.实验设置
GLU的kernel size设置为3,channel设置为256,stride设置为1。同时,u块在时间轴和频率轴上的核大小和步长分别为(1,3)和(1,2),通道设置为256。本文确定解码器层数为5层,总共有2个ublock。以MB为单位,内核大小、信道、解码器层跨距在时间轴和频率轴上分别为8,256和(1,3)。
在GRU上,左侧1D-conv内核大小为5,右侧1D-conv内核大小为1,通道也为256。在MHSA中,正面的数量被设置为2。
解码层有5 (en)层,10个GRU以MB为单位分为2个GRU组。在comome中,解码层的内核大小(kernel size)、信道(channel)、步幅(stride)在时间轴和频率轴上分别为8、512和(1、2)。comb中GRU中内核大小、步幅和通道的设置与MB中相同。
comb的中间部分由4个GRU组组成,其中有5个GRU。各GRU组的扩张率为[1,2,4,8,16]。
所有音频数据以16kHz采样,并通过使用帧移256的512帧提取,STFT使用汉恩窗口。所有模型都使用adam算法[25]进行优化,学习率为0.001,每个epoch后衰减一半。
4.客观评价
与DCCRN相比,pse和ESTOI分别平均提高0.07%和5.29%。
与ConvTasNet相比,pse和ESTOI分别平均提高了0.16%和1.84%。
六、结论
本文提出了一种复杂域语音增强的协作模型。将并行拓扑与MB结合使用。模型中的一条路径通过使用注意机制来修复原始输入特征的丢失细节来估计被掩盖的幅度。第二个并行部分的comb结合MB的输出并预测干净的语音复杂特征。这两条路径协同工作,在不同的上下文时间尺度上补偿和恢复目标。