Learning Complex Spectral Mapping With Gated Convolutional---论文翻译

用门控的复杂频谱映射学习 复杂频谱映射的学习 单声道语音增强

作者: Ke Tan , Student Member, IEEE, and DeLiang Wang , Fellow, IEEE
摘要:
相位对于语音的感知质量很重要。 然而,通过监督学习直接估计相位谱似乎很困难 由于其中缺乏频谱时间结构,通过监督学习直接估计相位谱似乎很难。复杂频谱映射的目的是估计 复杂频谱映射的目的是估计干净语音的实谱和虚谱,从那些 噪声语音的实谱和虚谱,这同时增强了语音的幅值和 语音的相位响应。受多任务学习的启发,我们 我们提出了一种门控卷积递归网络(GCRN),用于复杂频谱映射。复杂的频谱映射,这相当于一个因果系统,用于 单声道语音增强。我们的实验结果表明 我们的实验结果表明,所提出的GCRN的性能大大超过了现有的 复杂频谱映射的卷积神经网络(CNN)。在客观语音可懂度和质量方面都优于现有的卷积神经网络。此外,拟议的方法产生的STOI和PESQ明显高于幅度频谱。PESQ比幅度频谱映射和复杂比率掩码要高。我们还发现,用所提出的复合频谱映射法 GCRN提供了一个有效的相位估计。
关键词:
复杂频谱映射、门控卷积递归网络、相位估计、单声道语音增强。
Ⅰ、简介
  在日常聆听环境中,S PEECH信号会被背景噪音所扭曲。这种失真严重地降低了 语音的可懂度和质量,并使许多与语音有关的任务,如自动语音识别,变得更加复杂。许多与语音有关的任务,如自动语音识别 和说话人的识别更加困难。语音增强 的目的是去除或减弱语音信号中的背景噪音 信号。如果语音信号是由低信噪比的单个麦克风采集的,那么它从根本上来说是具有挑战性的。如果语音信号是由单一的麦克风在低信噪比的情况下捕获的 (SNRs)。本研究的重点是单声道(单通道)语音增强。增强。
  在过去的几十年里,单声道语音增强已经在语音处理界得到了广泛的研究。在过去的几十年里,语音处理界对单声道语音增强进行了广泛的研究。受计算听觉场景分析(CASA)中时频(T-F)掩蔽概念的启发,近年来语音增强被表述为监督学习。近年来,语音增强被表述为有监督的学习[36]。对于 监督下的语音增强,适当选择训练目标是很重要的[38]。一方面,一个定义明确的训练目标 一方面,明确的训练目标可以大大改善语音的可懂度和 质量。另一方面,训练目标应该是适合于 监督下的学习。在T-F领域已经开发了许多训练目标,它们主要分为两组。 一组是基于掩蔽的目标,如理想比率掩蔽 (IRM)[38],它定义了干净语音和噪声语音之间的时间-频率关系。另一类是基于映射的 的目标,如对数功率谱(LPS)[44]和 目标幅度频谱(TMS)[20],[12],它们代表了干净语音的频谱特征。清洁语音的频谱特征。
  这些训练目标大多是针对噪声语音的幅值频谱进行操作的,它是由短时傅里叶变换(STFT)计算出来的。因此,典型的语音增强系统只增强幅度谱图,并简单地使用噪声相位谱图来重新合成增强的时域波形。不增强相位谱图的原因有两个方面。首先,人们发现在相位谱中不存在明确的结构,这使得直接估计干净语音的相位谱变得难以实现[43]。 其次,人们认为相位增强对语音增强并不重要[37]。然而,Paliwal等人[23]最近的一项研究表明,准确的相位估计可以大大改善客观和主观的语音质量,特别是当相位谱计算的分析窗口被仔细选择时。随后,各种相位增强算法也被开发出来用于语音分离。Mowlaee等人[21]通过最小化平均平方误差(MSE)来估计混合物中两个来源的相位谱。Krawczyk和Gerkmann[17]对有声音的语音帧进行相位增强,而对无声音的帧不作改动。Kulmer等人[18]通过对瞬时噪声相位谱进行相位分解,然后进行时间平滑来估计干净的语音相位。 通过这些相位增强方法,可以实现客观的语音质量改善。另外,相位信息也可以被纳入T-F掩蔽中。Wang和Wang[39]训练了一个深度神经网络(DNN),通过反傅里叶变换层,利用噪声相位直接重建时域增强信号。结果表明,语音重合成和掩码估计的联合训练提高了感知质量,同时保持了客观的可懂度。 另一种方法是相位敏感掩码(PSM)[5],它结合了干净语音和噪声语音之间的相位差。实验结果表明,PSM估计比只增强幅度谱产生更高的信噪比(SDR)。
  Williamson等人[43]观察到,虽然相位频谱缺乏谱时结构,但干净的语音频谱的实部和虚部都表现出清晰的结构,因此适合于监督学习。因此,他们设计了复杂理想比值掩码(cIRM),它可以从噪声语音中重建干净的语音。在他们的实验中,采用了一个DNN来联合估计实谱和虚谱。与[21]、[17]和[18]中的算法不同,cIRM估计可以增强噪声语音的幅值和相位谱。结果表明,复杂比率掩蔽(cRM)比IRM估计产生更好的感知质量,同时在客观可懂度上取得轻微或没有改善。随后,Fu等人[6]采用卷积神经网络(CNN)从噪声频谱中估计出干净的实谱和虚谱。然后,估计的实谱和虚谱被用来重建时域的波形。他们的实验结果表明,与DNN相比,CNN使短时客观可懂度(STOI)提高了3.1%[29],使语音质量的感性评价(PESQ)[28]提高了0.12。此外,他们还训练了一个DNN,以从噪声的LPS特征映射到干净的特征。他们的实验结果表明,使用DNN的复杂频谱映射比使用相同DNN的LPS频谱映射产生了2.4%的STOI改善和0.21的PESQ改善。
  在过去的十年中,监督下的语音增强已经从CNN和循环神经网络(RNN)的使用中获益匪浅。在[42]、[41]、[40]和[5]中,具有长短期记忆(LSTM)的RNN被用来进行语音增强。最近,Chen等人[1]提出了一个具有四个隐藏LSTM层的RNN,以解决不依赖噪声的模型的说话人泛化问题。他们发现,RNN对未经训练的说话人有很好的泛化作用,并且在STOI方面明显优于前馈DNN。此外,CNN也被用于掩码估计和频谱映射[7],[25],[11],[31]。在[25]中,Park等人利用卷积编码器-解码器网络(CED)来进行光谱映射。CED实现了与DNN和RNN相当的去噪性能,而其可训练的参数却少得多。Grais等人[11]提出了一个类似的编码器-解码器架构。最近,我们提出了一个基于扩张卷积的门控残差网络,它有大的感受野,因此可以利用长期背景[31]。卷积递归网络(CRNs)得益于CNNs的特征提取能力和RNNs的时空建模能力。 Naithani等人[22]通过连续堆叠卷积层、递归层和全连接层设计了一个CRN。 在[46]中开发了一个类似的CRN架构。最近,我们将CED和LSTMs集成到CRN中,这相当于一个因果系统[32]。此外,Takahashi等人[30]开发了一个CRN,在多个低尺度上结合了卷积层和递归层。
  在一项初步研究中,我们最近提出了一种新型的CRN,用于执行单声道语音增强的复杂光谱映射[33]。这个CRN是基于[32]中的架构。 与[6]中的CNN相比,CRN产生了更高的STOI和PESQ,而且计算效率更高。在这项研究中,我们进一步发展了CRN架构,并研究了用于单声道语音增强的复杂频谱映射。我们对[33]的扩展包括以下内容。首先,每个卷积层或解卷积层被相应的门控线性单元(GLU)块所取代[4]。第二,我们在最后一个去卷积层的基础上增加了一个线性层来预测实谱和虚谱。
  本文的其余部分组织如下。在第二节中,我们介绍了STFT域中的单声道语音增强。在第三节中,我们详细描述了我们提出的方法。在第五节中,我们介绍并讨论了实验结果。第六部分是本文的结论。
II. STFT域中的单声道语音增强
  给定一个单麦克风混合物y,单声道语音增强的目的是将目标语音s从背景噪声n中分离出来。 噪声混合物可以被建模为
在这里插入图片描述

其中k是时间样本指数。对两边进行STFT,我们得到
在这里插入图片描述

其中Y、S和N分别代表y、s和n的STFT,m和f分别表示时间段和频仓。在极坐标中,公式. (2)变成
在这里插入图片描述
  其中|-|表示幅值响应,θ-表示相位响应。虚数单位用’i’表示。在典型的基于频谱映射的方法中,干净语音的目标幅度谱(TMS)(即|Sm,f|)是一个常用的训练目标[20], [12]。在这些方法中,从噪声特征(如噪声幅度|Ym,f|)到目标幅度的映射被学习。然后将估计的幅度|Sˆm,f|与噪声相位θYm,f相结合,重新合成波形。图1(a)描述了一个语音信号的相位谱图,其中相位值被包裹在(-π, π)范围内。经过包装后,相位谱图看起来相当随机。在图1(b)中,相位谱的解包版本导致了更平滑的相位图,当连续的T-F单元之间的绝对相位跳动大于或等于π时,相位值通过添加±2π的倍数进行校正。 因此,通过监督学习直接估计相位谱是难以做到的。
  从另一个角度来看,语音信号的STFT可以用直角坐标表示。因此,公式。(2)可以改写为
在这里插入图片描述
其中上标(r)和(i)分别表示实部和虚部。在[43]中,cIRM被定义为
在这里插入图片描述
其中,为简单起见,省略了指数m和f。增强的频谱图可以通过对噪声频谱图应用cIRM Mˆ的估计而得到。
在这里插入图片描述
其中上面的乘法’×’是一个复数算子
  此外,我们还扩展了信号近似法(SA)[15]。SA通过最小化干净语音的频谱幅度和估计语音的频谱幅度之间的差异来进行掩蔽。 基于cRM的信号逼近(cRM-SA)的损失定义为:
在这里插入图片描述
其中|-|代表复数模子,即复数的绝对值。
  如图1(d)和1(e)所示,实谱和虚谱都表现出清晰的谱时结构,类似于图1©的幅度谱,因此适合于监督学习。因此,我们建议像[6]那样,直接从噪声语音的实谱和虚谱(即Y(r)和Y(i))到干净语音的实谱和虚谱(即S(r)和S(i))学习光谱映射。随后,估计的实谱和虚谱被合并以恢复时域信号。
  需要注意的是,Williamson等人[43]声称,通过DNN直接预测STFT的实部和虚部是无效的。然而,我们发现,在STOI和PESQ指标中,复数光谱映射始终优于幅度光谱映射、复数比率掩蔽和基于复数比率掩蔽的信号逼近,只要有一个精心设计的神经网络结构。为方便起见,我们将复数频谱映射中使用的训练目标,即S®和S(i),称为目标复数频谱(TCS)。
在这里插入图片描述
III. 系统描述
A. 卷积递归网络
  在[32]中,我们开发了一个卷积递归网络,它本质上是一个编码器-解码器架构,在编码器和解码器之间有LSTMs。具体来说,编码器包括五个卷积层,而解码器包括五个去卷积层。在编码器和解码器之间,两个LSTM层对时间依赖性进行建模。编码器-解码器的结构是以对称的方式设计的:内核的数量在编码器中逐渐增加,在解码器中逐渐减少。为了沿频率方向汇总上下文,在所有卷积层和解卷积层中沿频率维度采用2的跨度。换句话说,特征图的频率维度在编码器中逐层减半,在解码器中逐层翻倍,这确保了输出与输入具有相同的形状。此外,跳过连接被用来将每个编码器层的输出与相应的解码器层的输入连接起来。在CRN中,所有的卷积和解旋都是因果关系,因此增强系统不使用未来信息。图2说明了[32]中的CRN架构,用于幅值域的频谱映射。
B. 有门的线性单元
  门控机制控制着整个网络的信息流,这有可能允许对更复杂的相互作用进行建模。它们最早是为RNNs开发的[14]。在最近的一项研究中[34],Van den Oord等人采用了LSTM式的门控机制对图像进行卷积建模,这导致了掩盖式卷积。
在这里插入图片描述
在这里插入图片描述

其中v1 = x ∗ W1 + b1,v2 = x ∗ W2 + b2。W’s和b’s分别表示内核和偏置,σ表示sigmoid函数。符号∗和分别代表卷积运算和逐元乘法。门控的梯度为
在这里插入图片描述
其中tanh(v1), σ(v2)∈(0, 1),质数符号表示微分。由于降尺度因子tanh(v1)和σ(v2)的作用,随着网络深度的增加,梯度逐渐消失了。为了缓解这个问题,Dauphin等人[4]引入了GLU。
在这里插入图片描述
梯度的GLU
在这里插入图片描述
包括一条没有降级的路径∇v1 σ(v2),它可以被看作是一个乘法的跳过连接,有利于梯度在各层中流动。图 3(a)是一个卷积 GLU 块(表示为 “ConvGLU”)的图示。去卷积GLU块(记为 “DeconvGLU”)是类似的,只是卷积层被去卷积层所取代,如图3(b)所示。
C. 通过分组策略降低模型复杂度
  模型的效率对于许多现实世界的应用是很重要的。例如,移动电话应用需要低延迟的实时处理。在这些应用中,高的计算效率和小的内存占用是必要的。Gao等人[9]最近提出了一种分组策略来提高递归层的效率,同时保持其性能。这种分组策略如图4所示。在一个循环层中,输入特征和隐藏状态都被分成互不相干的组,组内特征在每个组内分别学习,如图4(b)所示。分组操作大大减少了层间连接的数量,从而降低了模型的复杂性。然而,组间的依赖性不能被捕捉到。换句话说,一个输出只取决于相应特征组中的输入,这可能会大大降低表示能力。为了缓解这个问题,在两个连续的递归层之间采用了一个无参数的表征重排层来重排特征和隐藏状态,这样就可以恢复组间的相关性(图4©)。为了提高模型的效率,我们对模型中的LSTM层采用了这种分组策略。我们发现,这种策略在适当的组数下提高了增强性能。
在这里插入图片描述

D. 网络结构
  这项研究扩展了[32]中的CRN架构(见图2),以执行复杂的光谱映射。由此产生的CRN还结合了GLU,因此相当于一个门控卷积递归网络(GCRN)。图5描述了我们提出的GCRN架构。请注意,与[6]一样,噪声语音的实谱和虚谱被视为两个不同的输入通道。如图5所示,编码器模块和LSTM模块在估计实部和虚部时是共享的,而两个不同的解码器模块则分别用于估计实部和虚部的频谱图。这种结构的设计受到多任务学习的启发[19], [45], 其中多个相关的预测任务被联合学习,并在任务间共享信息。对于复杂的频谱映射,实部分的估计和虚部分的估计可以被视为两个相关的子任务(见[43])。因此,参数共享有望实现子任务之间的正则化效应,这可能导致更好的泛化。此外,参数共享可能会鼓励学习,特别是当两个子任务高度相关的时候。另一方面,子任务之间过度的参数共享可能会阻碍学习,特别是当两个子任务是弱相关的时候。因此,正确选择参数共享可能对性能很重要。在[33]中,我们研究了四种不同的参数共享机制。其中,共享编码器模块和LSTM模块而不共享解码器模块会导致最佳性能。
  在这项研究中,我们假设所有的信号都是以16千赫兹采样的。利用一个20ms的汉明窗来产生一组时间帧,相邻时间帧之间有50%的重叠。我们使用161维频谱,这相当于320点STFT(16 kHz × 20 ms)。
  表一提供了我们提出的网络结构的细节。 每层的输入大小和输出大小是以featureMaps × timeSteps × frequencyChannels的格式给出的。此外,层的超参数以(kernelSize, strides, outChannels)的格式指定。请注意,每个解码器层的特征图的数量因跳过连接而增加一倍。我们没有使用[32]中的2×3(时间×频率)的核大小,而是使用了1×3的核大小,我们发现这并不会降低性能。每个卷积或解卷积的GLU块后面都有一个批量归一化[16]操作和一个指数线性单元(ELU)[3]激活函数。在每个解码器的顶部叠加一个线性层,将学到的特征投射到实数或虚数谱图上。
在这里插入图片描述
在这里插入图片描述
IV. 实验装置
A. 数据准备
  在我们的实验中,我们在WSJ0 SI-84训练集[26]上评估所提出的模型,该训练集包括来自83个说话人(42个男性和41个女性)的7138个语料。我们将这些说话人中的6个(3个男性和3个女性)留作测试用,没有经过训练。换句话说,我们用剩下的77个说话者来训练模型。在这77个训练者的语料中,我们从NOISEX-92数据集[35]中随机抽出150个语料,用工厂噪声(称为 “factory1”)创建一个验证集,信噪比为-5dB。对于训练,我们使用来自一个声音效果库(可在https://www.soundideas.com)的10,000个噪音,其总时长约为126小时。 对于测试,我们使用两个高度非平稳的噪音,即咿呀声(“BAB”)和食堂(“CAF”),来自Auditec CD(可在http://www.auditec.com)。
  我们的训练集包含32万个混合物,其总时间约为500小时。具体来说,为了创建一个训练混合物,我们将一个随机选择的训练语料与10,000个训练噪声中的一个随机片段进行混合。信噪比从{-5, -4, -3, -2, -1, 0}dB中随机抽取。我们的测试集由150个混合物组成,这些混合物是由6个未训练过的说话人的25×6句话创建的。我们对测试集使用三种信噪比,即-5、0和5dB。
B. 基线和培训方法
  我们将我们提出的方法与五个基线进行比较。我们首先训练一个CRN,将噪声语音的幅度谱图映射到干净语音的幅度谱图[32](表示为 “CRN + TMS”)。估计的幅值与噪声相位相结合,重新合成波形。在第二条基线(表示为 “CRN-RI + TMS”)中,同样的CRN被用来从噪声语音的实部和虚部频谱图映射到干净语音的幅度频谱图。第三,如[6]所述,训练一个CNN来执行复杂的频谱映射。它有四个卷积层,有50个核,核大小为1×25,然后是两个全连接层,每层有512个单元。除输出层外,所有层都采用了参数化整流线性单元(PReLUs)[13]。 在输出层,322个(161×2)线性激活单元被用来预测实数和虚数光谱。第四,我们训练我们提出的GCRN来预测cIRM。请注意,cIRM的实部和虚部可能在(-∞, +∞)中有很大的范围,这可能使cIRM的估计变得复杂。 因此,我们按照[43]中的建议,用以下双曲正切来压缩cIRM。
在这里插入图片描述

  其中x表示r或i,分别表示实部和虚部。在推理过程中,未压缩的掩码的估计值可按以下方式恢复。
在这里插入图片描述

  其中Oˆ(x)表示GCRN的输出。如[43]所述,我们设定K=10,C=0.1。第五,我们用cRM-SA作为训练目标,训练相同的GCRN。
  模型的训练使用AMSGrad优化器[27],学习率为0.001。我们使用平均平方误差(MSE)作为目标函数。在语料层面上,迷你批的大小被设定为4。在一个minibatch中,所有的训练样本都用零填充,使其具有与最长样本相同的时间步长。通过交叉验证选择最佳模型。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
V. 实验结果和分析
A. 结果和比较

  表二、三和四分别显示了不同模型和训练目标之间在STOI和PESQ方面的综合比较,即-dB、0dB和5dB信噪比。 数字代表了每个测试条件下测试样本的平均数。每个测试条件下的最佳分数用黑体字突出。KS表示时间方向上的核大小,G表示分组LSTM层的组数。 注意,G=1意味着不进行分组。我们首先比较了我们提出的以TCS为训练目标的不同组数的GCRN结构,如表II、III和IV的最后四行所示。可以看出,G=1、G=2、G=4和G=8在两个指标方面都产生了类似的结果,这表明分组策略的有效性。
  此外,我们提出的GCRN模型大大超过了[6]中的CNN(KS = 1)。例如,在信噪比为-5dB的情况下,G=2的GCRN比CNN提高了13.14%的STOI,PESQ提高了0.47。在核大小为1×25的情况下,CNN只捕获了沿频率方向的上下文,没有学习时间上的依赖性。相比之下,我们提出的GCRN同时考虑了语音的频率和时间背景。我们通过在时间方向上使用不同的核大小来研究[6]中的CNN的时间背景的影响。具体来说,除了[6]中的原始版本(即1×25)之外,我们使用了四种不同的核大小,即2×25、3×25、4×25和5×25。请注意,这些核只对当前和过去的时间框架进行操作,这相当于因果卷积。通过四个卷积层,这些CNN分别对应于5、9、13和17帧的不同时间背景窗口大小。如表二、三和四所示,较大的上下文窗口尺寸产生较高的STOI,但在PESQ方面略有改善或没有改善。
  以cRM-SA作为训练目标,我们提出的GCRN产生的STOI和PESQ明显优于使用cIRM的相同GCRN。从cRM-SA到TCS进一步改善了这两个指标。以-5dB信噪比的情况为例。与估计的cIRM相比,采用cRM-SA的拟议GCRN(G=1)产生了3.68%的STOI改进和0.09的PESQ改进。估算的TCS还实现了2.28%的STOI改善和0.08的PESQ改善。
  我们现在比较幅度域和复数域的光谱映射。如表二、三和四所示,"CRN + TMS "和 "CRN-RI + TMS "利用相同的模型和训练目标,但输入特征不同。使用噪声语音的实谱和虚谱作为特征,产生的STOI和PESQ比使用噪声幅度谱略好。我们提出的方法(表示为 “GCRN + TCS”),利用TCS作为训练目标,比 "CRN-RI + TMS "大大提高了STOI和PESQ。例如,"GCRN + TCS (G = 2) "在信噪比为-5 dB时,比 "CRN-RI + TMS "提高了4.21%的STOI,PESQ提高了0.1。
  为了进一步证明复杂频谱映射的有效性,我们另外用TMS和TCS分别训练两个LSTM模型。两个LSTM模型都有四个堆叠的LSTM隐藏层,每层有1024个单元,一个全连接层被用来估计TMS和TCS,分别有一个softplus激活函数[10]和一个线性激活函数。如表二、三和四所示,复杂频谱映射产生的STOI和PESQ一直比幅度频谱映射高。
  此外,图6显示了比未经处理的混合物的信噪比改进(ΔSNR)。可以看出,我们提出的方法比基线产生了更大的信噪比改善,在-5dB时,信噪比改善超过了12dB。图7(a)显示了不同模型中可训练参数的数量,图7(b)显示了为处理一个时间框架而进行的浮点融合乘法的数量。通过分组策略,我们提出的模型在计算成本和内存消耗方面都比[32]中的CRN效率更高。[6]中的CNN的可训练参数要少得多,但计算成本比[32]中的CRN要高。在G4中,我们提出的GCRN具有与CNN相当的参数数量,但在计算上要高效得多。此外,图8显示了GCRN以cIRM、cRM-SA和TCS为训练目标的干净语音、噪声语音和增强语音的谱图实例。我们可以看到,在用估计的cIRM或cRM-SA增强的语音的频谱图中,一些语音成分被丢失。相比之下,通过估计的TCS增强的语音表现出与干净的语音更相似的谱时调制模式,并且比通过估计的cIRM或cRM-SA增强的语音失真更少。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  我们还将我们提出的方法与最近的两种时域语音增强方法进行比较。AECNN-SM(具有STFT幅度损失的自动编码器CNN)[24]和FCN(全卷积网络)[8]。此外,我们还训练了一个非因果版本的GCRN(表示为 “Bi-GCRN”),其中中间的LSTM层被相应的双向LSTM层所取代。比较结果见表五,其中的数字代表了两个测试噪声的平均值。我们可以看到,GCRN在-5dB时比AECNN-SM提高了1.19%的STOI,而GCRN和AECNN-SM在0dB和5dB时产生类似的STOI。在PESQ方面,AECNN-SM的表现一直优于GCRN。 应该注意的是,AECNN-SM方法使用的时间框架大小(即2048)比我们的方法(即320)大得多,这可能对AECNN-SM有益。还可以看到,我们的方法在STOI和PESQ方面都大大超过了FCN。此外,Bi-GCRN产生的STOI和PESQ明显高于GCRN。这并不令人惊讶,因为未来的帧显然包含了对语音增强有用的信息。
B. 相位估计的评估
  如果噪声具有不同的相位,语音信号的相位就会被背景噪声降低,一般来说就是这样。这在图9(a)中得到了说明。当噪声在混合物中占主导地位时,退化会变得更加严重(图9(b))。因此,在低信噪比条件下,相位误差往往更大。因此,当信噪比低时,相位增强变得很重要。
在这里插入图片描述
在这里插入图片描述
复谱映射提供了一个相位估计,即用两个未知数解出以下两个方程。
在这里插入图片描述
其中Sˆ(r)和Sˆ(i)是网络输出。为了评估估计的相位,我们采用两种相位测量方法。第一个是目标谱图S和估计的谱图Sˆ之间的相位距离(PD),定义在[2]中。
在这里插入图片描述

  其中∠(Sm,f, Sˆm,f) ∈ [0◦, 180◦] 表示Sm,f和Sˆm,f之间的角度。相位距离可以看作是相应的T-F单元之间角度的加权平均值,其中每个T-F单元由目标谱图的幅度加权,以强调该单元的相对重要性。第二个措施是通过比较使用三种相位重新合成的时域信号来量化估计相位的影响:噪声相位、估计相位和清洁相位。这些相位与三种不同的幅度相结合:噪声幅度、由[32]中的CRN估计器增强的幅度和清洁幅度。
  我们评估了两种估计相位,它们是由我们提出的方法(即 “GCRN + TCS (G = 1)”)所增强的频谱图计算出来的。 “GCRN + TCS (G = 1)”)和 “GCRN + cIRM (G = 1)”。表六和表七分别列出了在咿咿呀呀的噪声和食堂噪声上,干净的频谱图和噪声频谱图之间的相位距离(PD(S,Y))以及干净的频谱图和增强的频谱图之间的相位距离(PD(S,Sˆ))。数字代表每个测试条件下测试样本的平均值和标准偏差。我们可以看到,复杂的频谱映射在每个条件下都能改善相位。例如,在-5dB的食堂噪声上,相位距离平均提高了8.246◦。此外,就相位距离而言,"GCRN + TCS (G = 1) "产生的相位始终比 "GCRN + cIRM (G = 1) "好。
  表八、九和十分别列出了从噪声相位、估计相位和清洁相位重新合成的信号的比较。如表八所示,仅通过增强相位而保持噪声幅度不改变,客观可懂度和感知质量都得到了改善。例如,通过 "GCRN + TCS (G = 1) "估计的相位,在-5 dB信噪比下,比噪声相位提高了1.38%的STOI和0.12的PESQ。清洁阶段在-5分贝的情况下,STOI增加了2.05%,PESQ增加了0.1。从表九中,我们可以看到,增强相位可以进一步提高 STOI 和 PESQ,而不是仅仅增强幅度,特别是在低信噪比条件下(如 -5 dB),相位严重下降。 如表十所示,在幅度干净的情况下,估计的相位比噪声相位的STOI和PESQ都有所提高。 此外,用 "GCRN + TCS (G = 1) "估计的相位始终比用 "GCRN + cIRM (G = 1) "估计的相位高。
  上述评价还表明,使用噪声相位是不进行相位增强的传统方法的一个重要限制。我们的复杂频谱映射提供了一个有效的相位估计,避免了对噪声相位的使用。
VI. 结论
  在这项研究中,我们提出了一个使用卷积递归网络进行复杂频谱映射的新框架,该框架从嘈杂语音的实部和虚部频谱图学习到干净语音的频谱图。它能同时增强噪声语音的幅值和相位响应。 受多任务学习的启发,所提出的方法扩展了一个新开发的CRN,并产生了一个因果关系,以及与噪音和扬声器无关的单声道语音增强算法。我们的实验结果表明,用我们提出的模型进行复杂频谱映射,比幅度频谱映射以及复杂比率掩蔽和基于复杂比率掩蔽的信号近似,明显改善了STOI和PESQ。此外,我们提出的模型在复杂频谱映射方面大大超过了现有的CNN。 此外,我们在递归层中加入了分组策略,在保持性能的同时大幅提高了模型效率。
  我们提出的方法还提供了一个相位估计,证明它比噪声相位更接近清洁相位。从另一个角度来看,我们发现,当与噪声幅度或增强幅度相结合时,估计相位产生的STOI和PESQ明显高于噪声相位。
  应该指出的是,干净的语音可以从目标复杂频谱图中完美地恢复出来。我们相信,基于GCRN的复杂频谱映射的方法代表了在不利的声学环境和实际应用中产生高质量增强语音的重要一步。在未来的研究中,我们计划将我们的方法扩展到多通道语音增强,其中准确的相位估计可能更加重要。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

鸣谢
参考文献
[1] J. Chen and D. L. Wang, “Long short-term memory for speaker generalization in supervised speech separation,” J. Acoust. Soc. Am., vol. 141,no. 6, pp. 4705–4714, 2017.
[2] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee, Phase-aware speech enhancement with deep complex u-net, 2019, arXiv:1903.03107.
[3] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, “Fast and accurate deep network learning by exponential linear units (ELUS),” in Proc. Int. Conf.
Learn. Represent., 2016.
[4] Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, “Language modeling with gated convolutional networks,” in Proc. 34th Int. Conf. Mach. Learn.,2017, vol. 70, pp. 933–941.
[5] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2015,pp. 708–712.
[6] S.-W. Fu, T.-Y. Hu, Y. Tsao, and X. Lu, “Complex spectrogram enhancement by convolutional neural network with multi-metrics learning,” in Proc. IEEE 27th Int. Workshop Mach. Learn. Signal Process.,2017.
[7] S.-W. Fu, Y. Tsao, and X. Lu, “SNR-aware convolutional neural network modeling for speech enhancement,” in Proc. 17th Annu. Conf. Int. Speech Commun. Assoc., 2016, pp. 3768–3772.
[8] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, “End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,” IEEE/ACM Trans. Audio, Speech,Lang. Process., vol. 26, no. 9, pp. 1570–1584, Sep. 2018.
[9] F. Gao, L. Wu, L. Zhao, T. Qin, X. Cheng, and T.-Y. Liu, “Efficient sequence learning with group recurrent networks,” in Proc. Conf.
North Am. Chapter Assoc. Comput. Linguist.: Human Lang. Technol.,Volume 1 (Long Papers), 2018, vol. 1, pp. 799–808.
[10] X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” in Proc. 14th Int. Conf. Artif. Intell. Statist., 2011, pp. 315–323.
[11] E. M. Grais and M. D. Plumbley, “Single channel audio source separation using convolutional denoising autoencoders,” in Proc. IEEE Global Conf.
Signal Inf. Process., 2017, pp. 1265–1269.
[12] K. Han, Y. Wang, and D. L. Wang, “Learning spectral mapping for speech dereverberation,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process.,2014, pp. 4628–4632.
[13] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc.
IEEE Int. Conf. Comput. Vis., 2015, pp. 1026–1034.
[14] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997.
[15] P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis, “Deep learning for monaural speech separation,” in Proc. IEEE Int. Conf. Acoust.,Speech Signal Process., 2014, pp. 1562–1566.
[16] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Proc. Int. Conf. Mach.
Learn., 2015, pp. 448–456.
[17] M. Krawczyk and T. Gerkmann, “STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1931–1940,Dec. 2014.
[18] J. Kulmer and P. Mowlaee, “Phase estimation in single channel speech enhancement using phase decomposition,” IEEE Signal Process. Lett.,vol. 22, no. 5, pp. 598–602, May 2015.
[19] A. Kumar and H. Daumé III, “Learning task grouping and overlap in multitask learning,” in Proc. 29th Int. Conf. Mach. Learn., 2012, pp. 1383–1390.
[20] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder,” in Proc. Interspeech, 2013, pp. 436–440.
[21] P. Mowlaee, R. Saeidi, and R. Martin, “Phase estimation for signal reconstruction in single-channel source separation,” in Proc. 13th Annu. Conf.
Int. Speech Commun. Assoc., 2012, pp. 1548–1551.
[22] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan,and T. Virtanen, “Low latency sound source separation using convolutional recurrent neural networks,” in Proc. IEEE Workshop Appl. Signal Process.
Audio Acoust., 2017, pp. 71–75.
[23] K. Paliwal, K. Wójcicki, and B. Shannon, “The importance of phase in speech enhancement,” Speech Commun., vol. 53, no. 4, pp. 465–494,2011.
[24] A. Pandey and D. L. Wang, “A new framework for supervised speech enhancement in the time domain,” in Proc. Interspeech, 2018,pp. 1136–1140.
[25] S. R. Park and J. W. Lee, “A fully convolutional neural network for speech enhancement,” in Proc. 18th Annu. Conf. Int. Speech Commun. Assoc.,2017, pp. 1993–1997.
[26] D. B. Paul and J. M. Baker, “The design for the wall street journal-based CSR corpus,” in Proc. Workshop Speech Natural Lang., 1992, pp. 357–362.
[27] S. J. Reddi, S. Kale, and S. Kumar, “On the convergence of adam and beyond,” in Proc. Int. Conf. Learn. Represent., 2018.
[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assessment of telephone networks and codecs,” in Proc. IEEE Int. Conf.
Acoust., Speech, Signal Process., 2001, vol. 2, pp. 749–752.390 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 28, 2020[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,”IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125–2136,Sep. 2011.
[30] N. Takahashi, N. Goswami, and Y. Mitsufuji, “Mmdenselstm: An efficient combination of convolutional and recurrent neural networks for audio source separation,” in Proc. 16th Int. Workshop Acoust. Signal Enhancement, 2018, pp. 106–110.
[31] K. Tan, J. Chen, and D. L. Wang, “Gated residual networks with dilated convolutions for monaural speech enhancement,” IEEE/ACM Trans.
Audio, Speech, Lang. Process., vol. 27, no. 1, pp. 189–198, Jan. 2019.
[32] K. Tan and D. L. Wang, “A convolutional recurrent neural network for real-time speech enhancement,” in Proc. 19th Annu. Conf. Int. Speech Commun. Assoc., 2018, pp. 3229–3233.
[33] K. Tan and D. L. Wang, “Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement,” in Proc. IEEE Int.
Conf. Acoust., Speech Signal Process., 2019, pp. 6865–6869.
[34] A. Van Den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves,et al., “Conditional image generation with pixelcnn decoders,” in Proc.
Adv. Neural Inf. Process. Syst., 2016, pp. 4790–4798.
[35] A. Varga and H. J. Steeneken, “Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech Commun., vol. 12,no. 3, pp. 247–251, 1993.
[36] D. L. Wang and G. J. Brown, Eds, Computational Auditory Scene Analysis:Principles, Algorithms, and Applications. Hoboken, NJ, USA: Wiley,2006.
[37] D. L. Wang and J. Lim, “The unimportance of phase in speech enhancement,” IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-30, no. 4,pp. 679–681, Aug. 1982.
[38] Y. Wang, A. Narayanan, and D. L. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, Speech, Lang.
Process., vol. 22, no. 12, pp. 1849–1858, Dec. 2014.
[39] Y. Wang and D. L. Wang, “A deep neural network for time-domain signal reconstruction,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process.,2015, pp. 4390–4394.
[40] F. Weninger et al., “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Proc. Int. Conf.
Latent Variable Anal. Signal Sepa., 2015, pp. 91–99.
[41] F. Weninger, F. Eyben, and B. Schuller, “Single-channel speech separation with memory-enhanced recurrent neural networks,” in Proc. IEEE Int.
Conf. Acoust., Speech Signal Process., 2014, pp. 3709–3713.
[42] F. Weninger, J. R. Hershey, J. Le Roux, and B. Schuller, “Discriminatively trained recurrent neural networks for single-channel speech separation,”in Proc. 2nd IEEE Global Conf. Signal Inf. Process. Symp. Mach. Learn.
Appl. Speech Process., 2014, pp. 577–581.
[43] D. S. Williamson, Y. Wang, and D. L. Wang, “Complex ratio masking for monaural speech separation,” IEEE/ACM Trans. Audio, Speech, Lang.
Process., vol. 24, no. 3, pp. 483–492, 2016.
[44] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “An experimental study on speech enhancement based on deep neural networks,” IEEE Signal Process. Lett.,vol. 21, no. 1, pp. 65–68, Jan. 2014.
[45] Y. Zhang and Q. Yang, “An overview of multi-task learning,” Nat. Sci.
Rev., vol. 5, no. 1, pp. 30–43, 2018.
[46] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, “Convolutional-recurrent neural networksfor speech enhancement,” inProc.IEEEInt. Conf.Acoust.,Speech Signal Process., 2018, pp. 2401–2405.
Ke Tan received the B.E. degree in electronic information engineering from the University of Science and Technology of China, Hefei, China, in 2015. He is currently working toward the Ph.D. degree with the Department of Computer Science and Engineering,The Ohio State University, Columbus, OH, USA.
His research interests include speech enhancement and separation, microphone array processing, robust speech recognition, and deep learning.
DeLiang Wang, photograph and biography not available at the time of publication.

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值