《TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY》
Zhang H , Zhang X , Gao G . Training Supervised Speech Separation System to Improve STOI and PESQ Directly[C]// ICASSP 2018. 2018.
我还是将从存在的问题,作者提出的解决方法,方法具体内容,实验,这四个方面阐述。
存在的问题:
1. 监督语音分离方法希望将嘈杂的语音投射到目标纯净语音,一般都使用均方误差(MSE)来作为损失函数。但MSE并不匹配人类的听觉感知,所以不是一个最优选择。具体如下:
- MSE通常假定背景噪声是平稳的,即其频谱特性不会随时间变化,或者至少比语音平稳。因此,很难跟踪非平稳噪声,这限制了其在现实环境中的应用
- MSE会导致语音轨迹过分平滑,并可能导致声音质量低下和清晰度下降。因为MSE度量是分别从每个时频单元而不是整个频谱轨迹中得出的。
- MSE同等对待了参与评估的所有元素。例如,对于语音清晰度而言,可区分手机更为重要;对语音质量而言,孤点的危害更大,这可能会导致噪声。
2. 应该如何定义损失函数,并利用损失函数进行训练。
作者提出的解决方法:
为了弥补MSE的不足,新的损失函数应将整个语音或长时间语音考虑在内,并根据人类的听觉感知对估计元素赋予不同的权重。介于短时目标清晰度(STOI)与语音质量的感知评估(PESQ)经常作为语音分离研究中的评价标准,并且一般是整体的考虑整个语

本文探讨了使用MSE作为语音分离损失函数的局限性,并提出将STOI和PESQ结合为损失函数以更符合人类听觉感知。尽管STOI和PESQ不可微,作者采用梯度近似方法进行训练。实验在TIMIT数据集上进行,使用LSTM+RNN模型,结果显示改进后的系统在STOI和PESQ分数上有显著提升。
最低0.47元/天 解锁文章
479

被折叠的 条评论
为什么被折叠?



