U-Net

本文提出了一种名为SEWUNet的端到端语音增强方法,基于Wave-U-Net架构,用于从噪声中提取纯净语音。通过自动编码器初始化权重,提高了训练效率和性能,对比传统维纳滤波器和现有技术,SEWUNet在信噪比和字错误率上有显著提升,适用于ASR和其他下游应用。
摘要由CSDN通过智能技术生成

提出了通过Wave-U-Net(SEWUNet)进行语音增强的方法,这是一种从语音信号中减少噪声的端到端方法,我们证明了我们的建议确实提高了信噪比(SNR)和字错误率 (WER)与文献中的现有机制进行比较。 在实验中,网络输入是被附加噪声破坏的16 kHz采样率音频波形。 我们的方法基于Wave-U-Net架构,并针对我们的问题进行了一些调整。 提出了四个简单的增强功能,并通过消融研究对其进行了测试,以证明其有效性。 特别是,我们在训练主要降噪任务之前通过自动编码器强调了权重初始化,这导致训练时间的更有效利用和更高的性能。 通过定量指标,我们表明我们的方法比经典的维纳滤波更受青睐,并且比其他最新建议显示出更好的性能。
此端到端过程中的关键部分是语音到文本的转换,它可能会受到音频噪声的负面影响,并产生具有高单词错误率(WER)的文本。例如,在情感分析中,损坏的单词或成分可能会影响分类的极性,并且在一定程度上,这些下游应用程序将变得无法使用。本工作的目的是扩大所有这些应用的操作范围,否则将仅限于较安静的环境。从语音信号中提取背景内容是语音去噪的主要任务,除ASR问题外,还可用于人类理解。在音频领域,我们注意到,由于音频本质本身的复杂性(例如每秒大量的采样,频率和其他),这种在单通道记录上进行纯净语音提取是一个不确定性很高的问题。此类问题与众所周知的鸡尾酒会效果,即大脑试图将注意力集中在特定刺激上,同时过滤背景环境和其他噪音,类似于在派对中发生转换。
设y为噪声信号,x为干净的语音信号,d为产生噪声信号的噪声。在这项工作中,我们将假设是附加噪声干扰了公式1中定义的原始信号本身。
等式(2)中定义的我们的目标是使用非线性变换创建映射,以尽可能原始地检索原始语音。


解决该问题的最新方法依赖于其管线中的光谱信息和其他预处理技术。这种方法的重要问题之一是在执行短时傅立叶逆变换时,增强信号上会出现伪像。通过在原始波形上使用直接管线可以缓解此问题。另一方面,由于我们在一秒钟内有超过16000个样本,并且很难有效地处理非常长时间的时间依赖性,因此计算成本和复杂性将会增加。近年来,发现深度神经网络在语音方面非常成功处理任务。 LeCun和Bengio(1995)提出了一类特殊的神经网络,称为卷积神经网络(CNN),它专注于处理具有网格状拓扑结构的数据,例如音频,可以将其视为一个整体。尺寸网格(Goodfellow,Bengio,&Courville,2016)。这种类型的网络是当前计算机视觉和音频处理中若干问题的最新技术。在这项工作中,我们提出了SEWUNet(通过Wave-U-Net进行语音增强),这是一种端到端的深度学习使用完全卷积神经网络解决语音音频降噪问题。也就是说,我们尝试增加语音信号,使其对ASR和后续系统更加可口。实际上,正如Wave-U-Net论文(Stoller,Ewert,&Dixon,2018)提出的那样,我们针对一维时域开发了基于U-Net模型的体系结构,但有所增强。因此,本文的贡献是对Wave-U-Net体系结构进行四个简单的增强的建议,​​这些增强对模型的性能和效率(即减少处理时间)做出了贡献。
我们希望采用我们的机制可以为所有ASR和单词查找应用程序带来更好的性能和效率。一个重要的最终目标是改进它们以做出更好的决策。 实际上,其中一些使用场景是用于决策支持系统的。

最近工作
诺伯特·维纳(Norbert Wiener)于1942年提出,这是第二次世界大战期间的机密作品,它是对固定时间序列的过滤,以改善雷达通信。直到今天,维纳滤波器仍然是最流行的技术之一,它可以通过线性时不变(LTI)滤波从带有附加噪声的嘈杂信号中估计随机过程。 Wiener滤波器的主要思想是如式3所定义的那样,以半监督的方式使纯净信号与所需输出之间的均方误差(MSE)最小化。近年来,涉及时频表示的有监督机器学习设置的不同方法也提出了解决这个问题的方法。 (2017)提出了一个基于U-Net架构的卷积编码器/解码器网络,通过估计要应用于原始音频频谱图的二进制掩码来从歌曲中提取歌声,在他的工作中,频谱图通过瓶颈层压缩,使用顺序降采样块,并通过升采样块将其重构为目标频谱图的大小。大量参考文献使用时频表示作为参数模型的输入(Jansson等,2017; Lee,Wang,Tsao,&Hung,2018 ; Fu,Hu,Tsao,&Lu,2017)。短时傅立叶变换(STFT)取决于多个参数,例如窗口大小和跳长,这可能会影响时间和频率分辨率以及整个模型的准确性。为了提取该技术的最大能力,还应该优化这些参数,但是在实践中,这是一项艰巨的任务。大多数时频方法的另一个问题是使用幅度谱图作为源,而忽略了信号的相位信息。为了克服这个问题,提出了基于原始波形的技术。例如,Rethage,Pons和Serra(2018)提出了一个与WaveNet相似的语音去噪模型,该模型经过改编并具有非因果的卷积,其膨胀因子呈指数增长,以聚集上下文信息,同时保持特征图的维数不变。与Jansson等人提出的工作类似。 (2017),Stolleret等。 (2018)提出了一种基于U-Net架构的卷积编码器/解码器技术,但针对一维时域数据,称为Wave-U-Net。与用于语音降噪的WaveNet相比,Wave-U-Net具有更高的内存效率,因为长期依赖关系基于特征图而不是扩张因子。该体系结构的另一个积极方面是能够捕获大量复杂特征,这些复杂特征源于特征空间中的复杂交互。
InFu,Wang,Tsao,Lu和Kawai(2018)的作者提出了一种以STOI(短期目标智能)为目标函数的深度学习架构,此外还使用了Wave-U-Net中使用的更简单的MSE 。事实证明,这种选择可以增强语音清晰度,如一些离线测量所证明的那样,但在其架构中并未使用跳过连接.Chen,Watanabe,Erdogan和Hershey(2015)提出了BLSTM,一种用于多任务混合的系统语音增强和ASR,基于频谱域中应用的LSTM网络架构.Pandey和Wang(2019)提出了一种基于时域的全卷积模型,与我们的方法类似。本文的主要思想是对损失函数的处理。作者提出了频域上的损失函数,而不是时域上的直接量度(例如,MSE / MAE损失).Pascual,Bonafonte和Serra(2017)提出了SEGAN,这项工作代表了深度学习生成模型的突破语音增强。与SEGAN相比,有几个新的建议。最近,Macartney和Weyde(2018)发表了一项研究,也使用Wave-U-Net解决了类似的去噪问题。与我们工作的主要区别如下:(i)在Wave-U-Net上提出并实施修改,以简化网络,同时提高性能; (ii)除了在信号域上的度量标准外,我们还通过在ASR处理后测量WER将分析扩展到应用程序级别。

自动编码器
经过训练可在输出层上重现自己输入的神经网络称为自动编码器。 该网络可以看作是由编码器组成的两部分网络,该编码器负责映射h = f(x),其中x是我们的干净语音输入。 另一部分是负责重建操作r = g(x)的解码器。 自动编码器的目的是以g(fx)= x的方式训练网络。 即使将输入复制到网络的输出看起来似乎没有意义,我们真正感兴趣的是网络需要学习的有用功能,以便在较小的空间上表示输入。在本文中,我们 建议使用自动编码器来训练我们的模型,以便在语音去噪训练之前使用数据集保留部分中的干净信号执行权重初始化。


在图1中,我们可以看到U-Net的体系结构。它是一个完全卷积的神经网络,具有收缩路径(左侧),瓶颈层和扩展路径(右侧)。左路径遵循CNN的典型体系结构,在该结构中,它们反复应用两个卷积而不进行填充,其后是非线性激活函数(ReLU)和用于下采样的最大池化操作。当模型以2的因子对空间进行下采样时,会使网络中特征通道的数量增加一倍(Ronneberger等人,2015)。在对模型的描述之后,我们采用以下术语:(a)用于神经网络中一些基本要素的层(例如,卷积层,最大合并层等);正确的路径由特征图的升采样操作(通常是转置卷积或双线性插值)组成,依次将特征通道的数量减半。在执行该操作之后,但仍在同一块中,它们将来自收缩路径的同一级别的相应要素图连接起来,此操作称为“跳过连接”。在每个块中,有两个卷积层,然后是ReLU。在最后一层中,应用1x1卷积滤波器将每个分量从特征向量空间映射到所需的类数。在灰度图像中,类的数量为一,对应于应用于输入以对图像进行分割的蒙版。跳过连接的直觉是将一个块的输出同时馈送到下一个块的输入,然后到其他不相邻的街区。这个想法是,我们使用从收缩路径中提取的信息来重建阶段。没有这种连接,一些信息可能会丢失。

自动歌唱声音分离的任务包括估计孤立地唱出的旋律和伴奏的声音。 清晰的声音信号有助于其他相关的MIR任务,例如歌手识别[18]和歌词转译。
使U-Net体系结构适应了声音分离的任务。该体系结构被引入生物医学成像中,以提高神经元结构的显微图像的精度和定位。该体系结构建立在完全卷积网络上,类似于反卷积网络。在反卷积网络中,一堆卷积层(每个层将图像的大小减半,但将通道数量加倍)将图像编码为较小的深度表示。然后通过一堆上采样层将该编码解码为图像的原始大小。
在自然图像的再现中,通常仅一个像素的位移就不会被认为是主要的失真。但是,在频域中,即使频谱图中的微小线性移动也会对感知产生灾难性的影响:由于频率的对数感知,这在音乐信号中尤为重要。此外,时间维度上的变化会因抖动和其他伪影而变得可听见。因此,至关重要的是,复制品必须保持高细节水平。 U-Net在编码器和解码器中同一层次级别的层之间添加其他跳过连接。这允许低级信息直接从高分辨率输入流向高分辨率输出。
3.1架构
神经网络体系结构的目标是间接预测其输入的声音和乐器成分:最终解码器层的输出是一个软掩码,将其与混合频谱图逐元素相乘以获得最终估计值。图1概述了网络体系结构。在这项工作中,我们选择训练两个单独的模型来提取信号的乐器和声音成分,以便将来为这两个模型提供更多不同的训练方案。
3.1.1训练
令X表示原始混合信号(即包含人声和乐器成分的音频)的声谱图的大小。令Y表示目标音频的频谱图的大小;后者是指输入信号的声音(Yv)或乐器(Yi)分量。用于训练模型的损失函数为L1,即目标频谱图和掩蔽的输入频谱图之差的范数:

其中,f(X,Θ)是网络模型的输出掩码。1矩阵的L1,1范数只是的绝对值之和。训练了两个U-Net网络,Θv和Θi来预测人声和乐器的频谱掩码。
3.1.2网络架构详细信息
每个编码器层均由步幅2和内核大小5x5的步幅2D卷积,批量归一化和泄漏度为0.2的泄漏整流线性单元(ReLU)组成。在解码器中,我们使用跨步反卷积(有时称为转置卷积),跨度为2,内核大小为5x5,批量归一化,使用普通ReLU,并在前三层中使用50%的滤除率,如[11]所示。在最后一层中,我们使用了S型激活函数。该模型使用ADAM [12]优化器进行训练。考虑到训练此类模型的大量计算需求,我们首先将输入音频下采样到8192 Hz,以加快处理速度。然后,我们计算窗口大小为1024,跳长为768帧的短时傅立叶变换,并提取128帧(大约11秒)的补丁,将其作为输入并定向到网络。幅度谱图被归一化为范围[0,1]。
3.1.3音频信号重建
神经网络模型仅在音频频谱图的大小上运行。单个(声音/乐器)组件的音频信号通过构建频谱图来呈现:输出幅度是通过将U-Net预测的掩码应用于原始频谱的幅度来给出的,而输出相位是频谱的幅度。原始频谱不变。下面给出的实验结果表明,这种简单的方法被证明是有效的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值