stoi函数_训练监督语音分离系统来直接提高STOI和PESQ——学习笔记

本文探讨了使用MSE作为语音分离损失函数的局限性,并提出将STOI和PESQ结合为损失函数以更符合人类听觉感知。尽管STOI和PESQ不可微,作者采用梯度近似方法进行训练。实验在TIMIT数据集上进行,使用LSTM+RNN模型,结果显示改进后的系统在STOI和PESQ分数上有显著提升。

0e10074e56c4ce15fbe5129b35f727bd.png

《TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY》

Zhang H , Zhang X , Gao G . Training Supervised Speech Separation System to Improve STOI and PESQ Directly[C]// ICASSP 2018. 2018.

我还是将从存在的问题,作者提出的解决方法,方法具体内容,实验,这四个方面阐述。

存在的问题:

1. 监督语音分离方法希望将嘈杂的语音投射到目标纯净语音,一般都使用均方误差(MSE)来作为损失函数。但MSE并不匹配人类的听觉感知,所以不是一个最优选择。具体如下:

  • MSE通常假定背景噪声是平稳的,即其频谱特性不会随时间变化,或者至少比语音平稳。因此,很难跟踪非平稳噪声,这限制了其在现实环境中的应用
  • MSE会导致语音轨迹过分平滑,并可能导致声音质量低下和清晰度下降。因为MSE度量是分别从每个时频单元而不是整个频谱轨迹中得出的。
  • MSE同等对待了参与评估的所有元素。例如,对于语音清晰度而言,可区分手机更为重要;对语音质量而言,孤点的危害更大,这可能会导致噪声。

2. 应该如何定义损失函数,并利用损失函数进行训练。

作者提出的解决方法:

为了弥补MSE的不足,新的损失函数应将整个语音或长时间语音考虑在内,并根据人类的听觉感知对估计元素赋予不同的权重。介于短时目标清晰度(STOI)与语音质量的感知评估(PESQ)经常作为语音分离研究中的评价标准,并且一般是整体的考虑整个语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值