介绍
目标是缩小MMSE和深度学习语音增强方法之间的差距,生成比最近基于masking和mapping的深度学习方法更高质量和可理解性分数的增强语音。
研究了深度学习方法可以为上述MMSE方法提供的性能改进。每种MMSE方法都需要对带噪语音频谱成分进行先验信噪比(SNR)估计。
这里采用了深度学习的方法准确估计先验信噪比。 在这项工作中,使用语音质量和可懂度的主客观测量来评估使用深度学习的MMSE方法。测试条件包括真实世界的非平稳噪声源和多个信噪比水平的有色噪声源。将使用深度学习的MMSE方法与最近基于掩蔽和映射的语音增强深度学习方法进行了比较。利用帧方向谱失真(SD)水平来评估所提出的先验SNR估计器的精度。并以先验信噪比(SNR)、信噪比(IRM)和干净语音幅度谱作为训练目标,对语音增强性能进行了评价。论文的组织结构如下:第2节介绍背景知识,包括语音增强的分析、修改和合成(AMS)过程和MMSE方法;第3节描述映射的先验信噪比训练目标;第4节描述了ResLSTM和ResBLSTM先验信噪比估计器;第5节描述了实验装置,包括主客观测试程序;第6节给出了结果和讨论;第7节得出了结论。
背景
AMS语音增强框架
本文使用短时傅立叶分析、修改和合成(AMS)框架来生成增强语音。
AMS框架由三个阶段组成:(1)分析阶段,其中含噪语音进行短时傅立叶变换(STFT)分析;
(2)修改阶段,在该阶段,噪声语音STFT经过噪声失真补偿以产生修正的STFT;
(3)合成阶段,在逆STFT运算之后,通过重叠加合成来构造增强语音。
图1示出了AMS框架的框图。
先验信噪比
语音增强的MMSE方法利用先验信噪比计算增益函数。将增益函数应用于含噪语音的幅度谱,从而产生增强的语音幅度谱。噪声语音频谱分量的先验信噪比定义为:
上边是干净语音谱的方差,下边是噪声谱方差。
由于在语音增强过程中没有观察到干净的语音和噪声,因此必须从观测到的含噪语音中估计先验信噪比。在训练有监督学习算法估计先验信噪比时,给出了干净的语音和噪声(oracle案例)。结果,干净语音和噪声谱分量的方差分别被干净语音和噪声谱分量的平方幅值所代替。oracle案例以前被称为局部先验SNR。
MMSE approaches to speech enhancement
最小均方误差短时谱幅度(MMSE-STSA)估计器(Ephraim and Malah,1984)对干净语音的幅度谱(在均方误差(MSE)意义下)进行了优化估计。它利用给定噪声语音频谱分量的先验和后验信噪比来计算增益函数。
后验信噪比由下式给出:
最近流行的理想比率掩码(IRM)(Chen和Wang,2017)是根据给定的干净语音和噪声计算的平方根WF(SRWF)方法增益函数(Lim和Oppenheim,1979):
Deep learning for minimum mean-square error approaches to speech enhancement
最新推荐文章于 2023-01-20 19:35:00 发布