自用学习论文之具有注意机制的并行门控神经网络用于语音增强

最新推荐文章于 2023-11-23 18:55:35 发布

budangdiyi

最新推荐文章于 2023-11-23 18:55:35 发布

阅读量39

点赞数

文章标签：学习神经网络人工智能

本文链接：https://blog.csdn.net/budangdiyi/article/details/134295435

版权

PARALLEL GATED NEURAL NETWORK WITH ATTENTION MECHANISM FOR SPEECH ENHANCEMENT

第一章语音增强之《具有注意机制的并行门控神经网络用于语音增强》

前言

语音新手入门，学习读懂论文。
本文作者机构是南安普敦大学，英国
在这里插入图片描述

一、做了什么

本文采用序列到序列(S2S)映射结构，提出了一种新的单耳语音增强系统，该系统由特征提取块(FEB)、补偿增强块(ComEB)和掩码块(MB)组成。该方法利用U-net块提取具有单路径的复值谱的抽象特征，利用掩模方法抑制幅度域的背景噪声，而MB则从FEB中提取幅度特征，并补偿comb中丢失的复域特征，从而恢复最终清理后的语音。

二、动机

单通道语音增强(SE)的目的是恢复被背景噪声破坏的目标语音。以往大多数SE算法要么基于映射，要么基于屏蔽。近来，对SE提出了级联或多阶段的概念，因为中间先验可以通过将原始任务分解为几个子任务来增强优化。然而，每个子模型的性能受到限制，因为它们每个都只是增量地提高信噪比。

三、挑战

1.将幅度和相位优化解耦

2.语音质量与人类评分相关性较弱

四、方法

1.模型图

在这里插入图片描述
特征提取块(FEB)、掩码块(MB)、复值增强块(ComEB)和补偿块(CB)。

2.特征提取块

u块模块取代传统的二维卷积层，我们使用LSTM作为中间层，以减轻信息丢失。它采用ConvTasnet骨干网，由门控线性单元(GLU)、层归一化(LN)、ELU激活函数和带残差连接的u块组成。这种结构有两个优点，一是U-block可以掌握帧间的多尺度信息，这意味着能够更好地捕捉上下文特征。二是二维GLU可以过滤掉一些干扰信息，保留有用的细节。

3.掩码块

掩码块(MB)由编码器、解码器和堆叠门控残差单元(gru)组成，如图3所示。我们在编码器和解码器中分别使用了5个子层。编码器的子层包含一个具有批处理归一化的1D卷积层，并利用ELU激活函数。在中间层，门控残差模块堆叠形成门控残差网络。每个GRU中，我们分别在频率和时间维度上使用多头自注意。
在这里插入图片描述采用ResNet拓扑的MB架构

4.复数增强块

comb的结构与掩模块(Mask Block, MB)基本相同，但掩模块具有复杂的域特征，GRU没有使用注意机制，而是用扩张卷积代替了注意机制。
一维扩张卷积可以得到更大的感受野，获得更丰富的语音上下文特征信息，能够更好地挖掘序列中的信息依赖关系。comb同时考虑了幅度和相位信息，从而更有效地缓解语音失真。

5.补偿块

在这里插入图片描述

五、实验评价

1.loss

在这里插入图片描述
平均绝对误差函数(MAE)
∥。∥表示向量的绝对值，(Rn−1,In−1)和(Rn, In)分别表示第(n−1)帧的原始语音和第n帧的增强语音的振幅谱向量。
使用语音评价指标-尺度不变信失真比(SI-SDR)作为网络的训练函数，增强语音的客观指标将显著提高。Sn和Sn分别表示第n帧的原始幅度和增强幅度。A是纯语音的权重因子。

2.数据集

ibrisspeech语料库[和Voice Bank+DEMAND数据集。训练数据集选择了6500个干净的话语，为验证数据集选择了400个干净的话语，这些话语的信噪比为[-5dB， -2dB, 0dB, 2dB, 4dB, 5dB, 6dB, 10dB]。DNS-Challenge噪声集[24]中选取约20000个噪声进行训练。STFT的帧大小和帧移位分别设置为512和256。

3.实验设置

GLU的kernel size设置为3,channel设置为256,stride设置为1。同时，u块在时间轴和频率轴上的核大小和步长分别为(1,3)和(1,2)，通道设置为256。本文确定解码器层数为5层，总共有2个ublock。以MB为单位，内核大小、信道、解码器层跨距在时间轴和频率轴上分别为8,256和(1,3)。
在GRU上，左侧1D-conv内核大小为5，右侧1D-conv内核大小为1，通道也为256。在MHSA中，正面的数量被设置为2。
解码层有5 (en)层，10个GRU以MB为单位分为2个GRU组。在comome中，解码层的内核大小(kernel size)、信道(channel)、步幅(stride)在时间轴和频率轴上分别为8、512和(1、2)。comb中GRU中内核大小、步幅和通道的设置与MB中相同。
comb的中间部分由4个GRU组组成，其中有5个GRU。各GRU组的扩张率为[1,2,4,8,16]。
所有音频数据以16kHz采样，并通过使用帧移256的512帧提取，STFT使用汉恩窗口。所有模型都使用adam算法[25]进行优化，学习率为0.001，每个epoch后衰减一半。