自用学习论文之具有注意机制的并行门控神经网络用于语音增强

PARALLEL GATED NEURAL NETWORK WITH ATTENTION MECHANISM FOR SPEECH ENHANCEMENT

第一章 语音增强之《具有注意机制的并行门控神经网络用于语音增强》



前言

语音新手入门,学习读懂论文。
本文作者机构是南安普敦大学,英国
在这里插入图片描述


一、做了什么

本文采用序列到序列(S2S)映射结构,提出了一种新的单耳语音增强系统,该系统由特征提取块(FEB)、补偿增强块(ComEB)和掩码块(MB)组成。该方法利用U-net块提取具有单路径的复值谱的抽象特征,利用掩模方法抑制幅度域的背景噪声,而MB则从FEB中提取幅度特征,并补偿comb中丢失的复域特征,从而恢复最终清理后的语音。

二、动机

单通道语音增强(SE)的目的是恢复被背景噪声破坏的目标语音。以往大多数SE算法要么基于映射,要么基于屏蔽。近来,对SE提出了级联或多阶段的概念,因为中间先验可以通过将原始任务分解为几个子任务来增强优化。然而,每个子模型的性能受到限制,因为它们每个都只是增量地提高信噪比。

三、挑战

1.将幅度和相位优化解耦

2.语音质量与人类评分相关性较弱

四、方法

1.模型图

在这里插入图片描述
特征提取块(FEB)、掩码块(MB)、复值增强块(ComEB)和补偿块(CB)。

2.特征提取块

u块模块取代传统的二维卷积层,我们使用LSTM作为中间层,以减轻信息丢失。它采用ConvTasnet骨干网,由门控线性单元(GLU)、层归一化(LN)、ELU激活函数和带残差连接的u块组成。这种结构有两个优点,一是U-block可以掌握帧间的多尺度信息,这意味着能够更好地捕捉上下文特征。二是二维GLU可以过滤掉一些干扰信息,保留有用的细节。

3.掩码块

掩码块(MB)由编码器、解码器和堆叠门控残差单元(gru)组成,如图3所示。我们在编码器和解码器中分别使用了5个子层。编码器的子层包含一个具有批处理归一化的1D卷积层,并利用ELU激活函数。在中间层,门控残差模块堆叠形成门控残差网络。每个GRU中,我们分别在频率和时间维度上使用多头自注意。
在这里插入图片描述采用ResNet拓扑的MB架构
在这里插入图片描述

4.复数增强块

comb的结构与掩模块(Mask Block, MB)基本相同,但掩模块具有复杂的域特征,GRU没有使用注意机制,而是用扩张卷积代替了注意机制。
一维扩张卷积可以得到更大的感受野,获得更丰富的语音上下文特征信息,能够更好地挖掘序列中的信息依赖关系。comb同时考虑了幅度和相位信息,从而更有效地缓解语音失真。

5.补偿块

在这里插入图片描述
在这里插入图片描述

五、实验评价

1.loss

在这里插入图片描述
平均绝对误差函数(MAE)
∥。∥表示向量的绝对值,(Rn−1,In−1)和(Rn, In)分别表示第(n−1)帧的原始语音和第n帧的增强语音的振幅谱向量。
在这里插入图片描述使用语音评价指标-尺度不变信失真比(SI-SDR)作为网络的训练函数,增强语音的客观指标将显著提高。Sn和Sn分别表示第n帧的原始幅度和增强幅度。A是纯语音的权重因子。

2.数据集

ibrisspeech语料库[和Voice Bank+DEMAND数据集。训练数据集选择了6500个干净的话语,为验证数据集选择了400个干净的话语,这些话语的信噪比为[-5dB, -2dB, 0dB, 2dB, 4dB, 5dB, 6dB, 10dB]。DNS-Challenge噪声集[24]中选取约20000个噪声进行训练。STFT的帧大小和帧移位分别设置为512和256。

3.实验设置

GLU的kernel size设置为3,channel设置为256,stride设置为1。同时,u块在时间轴和频率轴上的核大小和步长分别为(1,3)和(1,2),通道设置为256。本文确定解码器层数为5层,总共有2个ublock。以MB为单位,内核大小、信道、解码器层跨距在时间轴和频率轴上分别为8,256和(1,3)。
在GRU上,左侧1D-conv内核大小为5,右侧1D-conv内核大小为1,通道也为256。在MHSA中,正面的数量被设置为2。
解码层有5 (en)层,10个GRU以MB为单位分为2个GRU组。在comome中,解码层的内核大小(kernel size)、信道(channel)、步幅(stride)在时间轴和频率轴上分别为8、512和(1、2)。comb中GRU中内核大小、步幅和通道的设置与MB中相同。
comb的中间部分由4个GRU组组成,其中有5个GRU。各GRU组的扩张率为[1,2,4,8,16]。
所有音频数据以16kHz采样,并通过使用帧移256的512帧提取,STFT使用汉恩窗口。所有模型都使用adam算法[25]进行优化,学习率为0.001,每个epoch后衰减一半。

4.客观评价

在这里插入图片描述
与DCCRN相比,pse和ESTOI分别平均提高0.07%和5.29%。
与ConvTasNet相比,pse和ESTOI分别平均提高了0.16%和1.84%。


六、结论

本文提出了一种复杂域语音增强的协作模型。将并行拓扑与MB结合使用。模型中的一条路径通过使用注意机制来修复原始输入特征的丢失细节来估计被掩盖的幅度。第二个并行部分的comb结合MB的输出并预测干净的语音复杂特征。这两条路径协同工作,在不同的上下文时间尺度上补偿和恢复目标。

七、知识小结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值