IDEAL RATIO MASK ESTIMATION USING DEEP NEURAL NETWORKS FOR ROBUST SPEECH RECOGNITION（2013）

阿凡凡提

已于 2024-11-19 09:13:08 修改

阅读量719

点赞数

分类专栏：关键字识别文章标签：机器学习算法人工智能语音识别

于 2022-05-23 12:15:13 首次发布

关键字识别专栏收录该内容

14 篇文章

订阅专栏

该研究提出了一种使用深度神经网络估计平滑理想比率掩码（IRM）的特征增强算法，以提升语音识别在噪声环境中的性能。在Aurora-4鲁棒ASR数据集上，与直接估计二进制掩码相比，该方法实现了超过38%的相对单词错误率改进。通过在Mel谱图中滤除噪声，系统在不同信噪比条件下表现出色，尤其在高频信道中。此外，该系统在瞬时信噪比估计上也显示出高精度，平均绝对误差低于4dB。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用深度神经网络估计理想比率掩码进行鲁棒语音识别

摘要

我们提出了一种改进鲁棒自动语音识别（ASR）的特征增强算法。

该算法（使用深度神经网络和一组以前用于估计理想二进制掩码的时频单位级特征）在Mel频域中估计了一个平滑的理想比率掩码（IRM）。

在对ASR进行倒谱特征提取之前，使用估计的IRM从带噪的Mel谱图中滤除噪声。

（总结：该算法利用深度神经网络在Mel谱图域估计平滑的理想比率掩码，用于在倒谱变换前滤除噪声。）

在Aurora-4鲁棒ASR语料库的噪声子集上，使用在干净条件下训练的ASR模型，所提出的增强在单词错误率方面取得了38%以上的相对改善，使用多条件训练数据训练模型时，所提出的增强在单词错误率方面取得了14%以上的改善。在瞬时信噪比估计性能方面，该系统在大多数频率信道中得到了小于4dB的平均绝对误差。

（总结：该系统使Aurora-4鲁棒ASR任务得到了很大的改进。与估计的二进制掩码相比，使用估计的比率掩码可以获得更好的ASR性能。）

研究内容

噪声鲁棒语音识别是一个广泛研究的具有重要实际应用价值的研究课题[1]。

有几种方法旨在提取鲁棒特征，如RASTA PLP[2]和AFE[3]；但是，仅仅调整特征提取只能取得有限的成功。

因此，通常使用模型自适应和特征增强等技术。

自适应技术，如MLLR[4]的自适应，试图修改模型参数，以更好地匹配测试条件。这种方法的计算成本很高，而且可能还需要自适应数据。

特征增强技术，试图在不修改模型参数的情况下从给定的混合中去除噪声。因此，这种方法在计算上更有效。特征增强技术的示例包括缺失特征重建[7]、维纳滤波[8]和基于VTS的增强[9]。

特征增强技术的一种流行方法是使用基于计算听觉场景分析（CASA）的算法在识别之前执行语音分离。CASA的主要目标是估计理想二进制掩码（IBM）[11]，它将噪声信号的时频（TF）表示中的每个单元识别为语音主导或噪声主导。基于监督分类的算法已用于执行语音分离的IBM估计任务[13，14]。此类算法在T-F单元级别提取特征，并使用支持向量机和深度神经网络（DNN）等学习机器进行分类。

本研究的目标之一是评估此类算法在鲁棒的ASR任务上的性能。在早期的研究中已经注意到，估计理想比率掩码可能会导致更好的性能[15]。

我们还研究：1）这种监督学习算法如何适用于估计IRM；2）这种算法在提高抗噪声ASR性能方面的潜力。

提出的方法&模型架构

该系统使用监督学习算法来估计IRM。以下各小节描述了如何设置所需目标、使用哪些特征以及如何学习映射特征。

目标信号

从数学上讲，与维纳(Wiener)增益密切相关的理想比率掩码定义如下：

这里，x（m，c）和n（m，c）分别表示时间帧m和频率信道c处的瞬时语音和噪声能量。

SNR（m，c）表示瞬时SNR，单位为dB。我们的系统不是直接估计IRM，而是估计使用可调sigmoid函数变换的瞬时SNR.

d（m，c）表示训练时的期望目标。α控制sigmoid的斜率，β是偏差。通过调节α和β，我们可以在训练系统时控制信噪比的范围。在我们的实验中，我们将α设置为以β为中心的35 dB SNR跨度，其设置为-6 dB。β对应于通常用于定义IBMs的阈值[19]。基于这些选择值的SNR到目标映射如图1所示。

Fig. 1. 瞬时信噪比的瞬时映射函数. ( Desired target label(所需目标标签))

在测试期间，系统的输出映射回相应的IRM值，以便它们可以用作过滤器来执行噪声抑制。

特征

我们在Mel谱域中进行掩码估计，这是用于ASR特征增强的常用前端。

为了提取特征，首先使用频率范围从50 Hz到7 kHz的26通道Mel滤波器组对预先强调的输入信号进行滤波。滤波器组使用六阶butter-worth过滤器(sixth order butter-worth filters)实现。然后，使用每个通道中的滤波器输出来提取以下T-F单元级特征：

13维RASTA滤波PLP倒谱系数（含δ (delta增量)和加速度分量）、31维Mel频率倒谱系数（MFCC）、15维AMS特征和6维基于音高的特征及其时间和频率δ分量。

计算这些特征时，跃点大小设置为10毫秒；帧大小取决于特征类型–20毫秒帧用于RASTA PLP、MFCC和基于音高的特征，32毫秒帧用于AMS特征（有关如何提取这些特征的详细描述，请参阅[20]）。我们使用这组特性，因为我们发现这组特性对于IBM评估非常有效[20]。

（Delta是第四个希腊字母的读音，其大写为Δ，小写为δ。在数学或者物理学中大写的Δ用来表示增量符号。而小写δ通常在高等数学中用于表示变量或者符号）

监督学习

按照[21]中提出的有监督的IBM估计算法，我们使用深度神经网络学习将提取的特征映射到所需目标的函数（见等式1）。我们采取两个阶段的方法。

在第一阶段，使用上述特征训练26个DNN，每个频率通道一个DNN。DNN训练计划包括一个无监督的预训练阶段和一个有监督的反向传播阶段，每个阶段由100个epochs组成[22]。在反向传播过程中使用了交叉熵学习准则。每个DNN具有103个与特征维度相对应的输入节点、2个隐藏层（每个层有200个节点）和1个输出层（每个层有1个节点）。

DNN使用每个T-F单元的局部获取特征学习函数，而不直接使用相邻单元中的可用信息。因此，在第二阶段，我们学习具有1个隐藏层的MLP以平滑DNN的输出。MLP还针对每个频率通道进行训练。它们使用每个T-F单元周围邻域中DNN的输出作为输入，并经过训练以重新估计与DNN相同的目标。邻域是根据开发集上的ASR性能选择的，由9个频率通道和11个时间帧组成。MLP隐藏层中的节点数固定为100。与第一阶段一样，他们使用交叉熵学习标准进行100个epochs的训练。

数据集

使用基于《华尔街日报》语料库的Aurora-4数据集[23]对建议的系统进行评估[24]。DNN和MLP使用多条件训练集中的噪声话语进行训练。这些话语是在10分贝到20分贝的SNR下，通过将语音与6种噪声类型混合产生的。在这组2676句话中，2100句用于训练系统，其余用于交叉验证和提前停止。包含每个混合物的清洁和噪声信号用于使用等式1设定训练的期望目标。为了评估性能，我们使用语料库中的降噪测试集。它由166个干净的话语组成，在5分贝到15分贝的SNR范围内，混合了相同的6种噪声类型。

ASR系统使用HTK工具包实现[25]。识别模块由状态相关的单词内部三音组成，建模为三态HMM。每个状态的观测概率被建模为16个对角高斯的混合。解码过程中使用标准的二元语言模型和CMU发音词典。作为特征，我们使用12阶MFCC及其增量和加速度分量。这些特征在话语层面上进行均值和方差归一化，以提高鲁棒性。在测试过程中，在倒谱变换之前，使用Mel谱域中估计的IRM对噪声信号进行滤波。

结果

瞬时信噪比估计

我们首先给出了该系统的瞬时信噪比估计性能。将拟议的两阶段系统与以下备选方案进行比较：

直接使用DNN输出而不进行任何平滑的一阶段系统，
直接估计IRM而不是方程式1（IRM direct）中定义的目标的一阶段系统，
类似于Tchorz和Kollmeier[18]（TK-AMS）提出的系统。

TK-AMS将在T-F单元级计算的AMS特征串联起来，以获得帧级特征（维数：15×26=390）。然后训练单个DNN，以同时估计对应于26个频率信道的输出。DNN的体系结构与建议系统使用的体系结构相同，只是输入层和输出层现在分别由390和26个节点组成。每个系统的输出都转换为分贝以评估性能。地面真值瞬时SNR值和估计值限制在-15 dB到10 dB的范围内；超出此范围的任何估计值都将四舍五入到这些边界值。

图2显示了6种噪声条件下的平均绝对误差。平均而言，1级系统的平均误差为3.0 dB。平滑输出进一步将平均误差提高0.3 dB。与两级系统相比，估计IRM会直接使性能降低约1 dB，这表明使用sigmoid函数转换SNR是有用的。TKAMS产生的平均误差为3.7 dB。

有趣的是，对于所提出的两级算法，每个信道的平均误差低于4 dB。它在嘈杂噪声和机场噪声条件下表现最差，所有信道的平均误差约为3 dB。正如预期的那样，它在相对平稳的汽车噪声条件下表现最好，平均误差为2.3 dB。从图中可以看出，所有算法的性能在高频信道下都会下降。这是意料之中的，因为高频区域包含更多清音语音，而清音语音具有类似噪声的特性，因此很难将其与实际噪声区分开来。

Fig. 2. 梅尔谱域的瞬时信噪比估计性能。26个频率通道跨越的频率从50Hz到7kHz.

ASR性能

我们使用干净和多条件（MC）训练集来训练两个ASR系统。在干净的条件下，它们产生的字错误率（WER）分别为8%和10.4%。测试的特征增强算法的性能如表1所示。基线性能相当于在没有任何增强的情况下直接识别含噪语音。这导致使用在清洁条件下训练的模型时平均WER为29%，使用MC训练时平均WER为19.3%。

除了前面描述的系统之外，我们还提供了使用IBM估计算法（IBM direct）获得的结果。IBM direct系统在训练期间使用二进制目标，而不是拟议算法使用的比率目标。通过在-6 dB的瞬时信噪比上施加一个阈值来获得二值目标。它使用与拟议的一级系统类似的DNN训练（即，无任何平滑）。IBM direct系统与[21]中提出的系统最为相似，它在语音分离方面表现良好。当使用估计的IBM时，直接掩蔽方法用于执行特征增强。

可以看出，使用在清洁条件下训练的模型，拟议的两级系统的平均功率为17.9%，比一级系统高0.7个百分点，比IBM direct高3.6个百分点。显然，估计IRM似乎更适合ASR的任务。一级和二级系统的性能都优于IRM direct和TK-AMS。值得强调的是，与噪声基线相比，两级系统获得了11.1个百分点的大幅改善。当ASR模型使用MC集进行训练时，性能上的差异并没有那么显著。两级系统比一级系统提高了0.5个百分点。其余系统平均获得类似的WER。与噪声基线相比，两级系统提高了2.8个百分点。