除了信噪比SNR，还有哪些指标评价降噪语音的水平

最新推荐文章于 2025-02-19 15:26:40 发布

西岸行者

最新推荐文章于 2025-02-19 15:26:40 发布

阅读量9.1k

点赞数 4

分类专栏：噪声消除

本文链接：https://blog.csdn.net/golfbears/article/details/115731654

版权

噪声消除专栏收录该内容

18 篇文章

订阅专栏

除了信噪比SNR，还有哪些指标评价降噪语音的水平

前言：主观subjective和客观objective
MOS:Mean Opinion Score
ITU-T Recommendations
承前启后，其实前面都不是针对降噪质量评估的
STOI:Short-Time Objective Intelligibility 短时客观可懂度
结语
bible
参考文档

前言：主观subjective和客观objective

刚开始工作的时候，老专家在我面前吹嘘我们系统的MOS分多流弊，一晃几十年过去了…用这个场景开始的意思就是MOS差不多是最古老的主观语音评价标准了，而最初的语音是说给人听的，所以主观占主流。计算机语音处理的发展令识别和语义理解慢慢的都不需要人参与了，所以主观评价慢慢的被客观评价赶上，也有综合评价指标不断被提出来。本文是研究评估降噪标尺的学习笔记。

MOS:Mean Opinion Score

这是语音通信里最典型的一个评价指标，通常要求MOS分不能低于3.5，随着移动通信的发展，慢慢的提升到了4，那么这些数字有什么意义呢，简单的说是对语音质量的一种主观打分，这些分的主观评定感觉如下：

5: Perfect. Like face-to-face conversation or radio reception.-完美，就像面对面说话或者听广播一样。
4: Fair. Imperfections can be perceived, but sound still clear. This is (supposedly) the range for cell phones.-还不错，一些声音瑕疵能被接受，不影响听觉，不会引起歧义。
3: Annoying.-一般了，虽然也能交流，但引起双方的不适感。
2: Very annoying. Nearly impossible to communicate.应该是断断续续的，丢音失真比较严重了，在崩溃的边缘
1: Impossible to communicate.-- 不用解释了。

ITU-T Recommendations

语音降噪的需求几乎和无线通信一起成长和发展的，那么先看一下ITU-t对语音降噪测试的要求吧，下图来自POLQA，一张图片几乎将通信中所要求的评价标准给囊括了。
上图的POLQA是付费的，所以再自由软件的世界里大家还看不见真身。除了上图，ITU的《P.800.》系列都是对语音质量进行评估的，有兴趣的时候应该多读读。

PESQ : Perceptual Evaluation of Speech Quality 语音质量的感知评估

9.语音质量评估博文中有对此的描述，目前此指标是大部分评估系统采用的，P.862.2将评估方法扩展到了宽带（16khz及以上）。比较方便的是github上已经有了python的评估方法，详见python-pesq。

MOS-LQO & MOS-LQS：

上图只看到了MOS-LQO，即MOS-LQOis used to refer to MOS objective listening quality，那么LQO就是 MOS subjective listening quality。P.862.2的主题就是Mapping function for transforming P.862 raw result scores to MOS-LQO，summary如下

Summary
ITU-T Rec. P.862 provides raw scores in the range –0.5 to 4.5. It is desired to provide a MOS-LQO
(P.800.1) score from P.862 to allow a linear comparison with MOS. This Recommendation presents
the mapping function and its performance for a single mapping from raw P.862 scores to the
MOS-LQO (P.800.1).
This will allow MOS-LQO scores from ITU-T Rec. P.862 to be comparable independent of the
implementation of ITU-T Rec. P.862. The given function for transformation presented in this
Recommendation has been optimized on a large corpus of subjective data representing different
applications and languages.

由此可见MOS-LQO和PESQ其实是等价的。

POLQA：Perceptual Objective Listening Quality Analysis感知客观语音质量评估

虽然拿不到这个标准的第一手资料，不过通过一些文章可以大致了解了一下，一下是来自POLQA - 全球唯一被 ITU 认证的语音质量评估解决方案一文中的描述，引用如下：

POLQ 获得的感知结果参数
1、MOS-LQOPOLQA 的最出色的结果是 MOS-LQO，它直接以 MOS 分值级别来表示
语音质量。此分数由 ITU-TP.863 建议书定义，它使用类似于 MOS 的标度，窄带模式
的范围从 0（最差）到 4.5（最佳），而超宽带模式的范围从 0（最差）到 4.75（最佳）。
2、G.107 R 因子 / IeValue 值POLQA 库还提供了 MOS-LQO 得分到 G.107（电子模型）
所使用的量表的映射。结果参数等效于 IeValue 值，许多人也将其称为 R 因子，比例范
围从 0（差）到 100（最佳），所有低于 60 的值表示质量不合格。R-Scale 和 MOS 之
间的映射按照 G.107 中的定义实现。
3、干扰密度干扰密度是在特定频率范围内和特定时间感知到信号衰减程度的指标。幅度
以 Sone 为单位，频率刻度使用 1/3Bark 频段。对于每一帧，计算干扰密度矢量。干
扰密度是一种感知指标，它考虑了频率以及时间掩蔽

承前启后，其实前面都不是针对降噪质量评估的

上文提到的都是通信领域的应用，而落实到纯降噪，甚至给识别的算法评估，可能都不合适。因为通信过程除了语音增强之外，还有量化、延时(丢包补偿)和编解码引起的声音质量损失，评估目标也更侧重与人的主观感受，所以评估方法的核心还是MOS。而广义（机器识别）的语音增强场景可能没有通信那么复杂，目标是面向机器，所以无论是方法亦或侧重点都不太一样。【4】语音增强引起的失真既包括语音，也包括背景噪声。显然大家更关注的语音失真的影响，另外还有人试图建立客观和主观的关系，就像上文PESQ—LQO一样。文献【4】给出了很多客观度量的相关性验证。不过我最感兴趣的确实Ai时代流行起来的STOI指标。

STOI:Short-Time Objective Intelligibility 短时客观可懂度

2010年【1】中提出来了STOI方法，后来被大家采用，结合PESQ是一个非常流行的语音质量评估方法。这个指标据文章说，与噪声和时频受噪语音有95%的强相关性。尤其对频域处理的降噪算法，有非常好的复用度。

结语

当然也可以在端端识别过程里，替换降噪模块，通过评价WER等指标来对算法进行评估，但上述算法作为各大论文的画图坐标，应该也是语音增强领域不二之选。

bible

Non-intrusive && Intrusive

无参考和有参考，一般通信领域Non-intrusive比较普遍，单纯降噪评估Intrusive更加准确。

CSIG: MOS predictor of speech distortion,

CBAK: MOS predictor of intrusiveness of background noise

COVL: MOS predictor of overall processed speech quality.

参考文档

[1] C.H.Taal, R.C.Hendriks, R.Heusdens, J.Jensen ‘A Short-Time
Objective Intelligibility Measure for Time-Frequency Weighted Noisy
Speech’, ICASSP 2010, Texas, Dallas.
[2] C.H.Taal, R.C.Hendriks, R.Heusdens, J.Jensen ‘An Algorithm for
Intelligibility Prediction of Time-Frequency Weighted Noisy Speech’,
IEEE Transactions on Audio, Speech, and Language Processing, 2011.
[3] Jesper Jensen and Cees H. Taal, ‘An Algorithm for Predicting the
Intelligibility of Speech Masked by Modulated Noise Maskers’,
IEEE Transactions on Audio, Speech and Language Processing, 2016.
[4] Evaluation of Objective Quality Measures for Speech Enhancement
5. 语音质量评价方法-音频质量专题
 6.主客观语音质量评估
 7.POLQA
8.Mean Opinion Score (MOS): A Measure of Voice Quality
9.语音质量评估