音频质量客观评价指标

Leo606

已于 2023-05-16 19:59:04 修改

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：语音增强文章标签：深度学习实时音视频算法

于 2023-04-24 17:45:49 首次发布

本文链接：https://blog.csdn.net/Brouce__Lee/article/details/130347218

语音增强专栏收录该内容

2 篇文章

订阅专栏

文章介绍了多种用于语音质量和增强效果评估的指标，包括MOS（主观评分）、DMOS（差异主观评分）、DNSMOS、PESQ、STOI、SDR等。这些指标在不同场景下用于衡量语音的可懂度、自然度、噪声抑制效果和整体质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：音频质量客观评价指标

作者：LeoLi6 (转载引用请注明出处)

干货分享，欢迎点赞收藏加关注！

语音增强中，常添加各种指标评估算法效果和语音质量，下面是常见的一些指标， All these metrics are better if higher.

Objective Evaluation Metrics

1.MOS(Mean Opinion Score)是语音增强和语音质量评估中最常用的主观评分方法。它通过让一定数量的人工听者对语音样本进行听觉质量评分,然后计算所有听者评分的平均值来得出MOS值。MOS的评分通常在1到5之间,分值为:

1 - 非常差,几乎不可用
2 - 差,质量明显受损,应用受限
3 - 一般,可用于部分应用
4 - 好,可用于大多数应用
5 - 非常好,与高质量标准电话质量相当

MOS评分的优点是直观简单,对应人类的听觉感知,可以有效评估人类听者的主观听感。但是它也存在一定的缺点:

评分的准确性依赖评价人员的经验与标准,存在较大差异性。
评分过程耗时长,并且需要大量的人工资源,不适用于大规模语音质量评估。
评分结果可能受环境噪声和其他无关因素的影响,准确性受限。

因此,MOS评分 methodology适用于小规模的主观语音质量评估,以及算法和系统的初步比较和评选。而在产品和服务的大规模评估中,更多采用客观的自动化评估指标,如PESQ和STOI等。除MOS之外,差分MOS(DMOS)也经常被用来评估语音增强系统的效果。它通过计算增强前和增强后语音的MOS差值,来评价语音质量的提高程度。DMOS分数范围也通常在1到5之间,分数越高表示语音质量提高越大。

2. DMOS(Difference Mean Opinion Score) 是基于人工听评来评估语音质量提高程度的指标。实验中会让评价人员对语音增强前后的语音样本进行打分,DMOS是两者打分的差值,范围通常在1到5,分数越高表示语音质量的提高越大。它可以有效评估不同语音增强算法对语音质量提高的作用。

3. DNSMOS: 人的主观评价是评价为人类感知优化的语音质量的“金标准”。感性客观指标作为主观得分的代理。传统和广泛使用的指标需要参考干净的语音信号，这在真实录音中是不可用的。无参考方法与人类评分相关性很差，在研究界没有被广泛采用。这些感知客观度量的最大用例之一是评估噪声抑制算法。DNSMOS在具有挑战性的测试条件下具有良好的泛化性，并且在堆栈排序噪声抑制方法中与人类评级高度相关。

4. PESQ: Perceptual evaluation of speech quality(from -0.5 to 4.5)，是目前语音增强领域最广泛使用的主观评估指标。它通过仿真人耳的听觉模型来预测听者对语音质量的主观评分,范围从-0.5到4.5,分数越高表示语音质量越高。它可以用于评估端到端的语音质量,也可以评估增强前后的质量差异。

5. STOI: 短时客观可懂度(Short-Time Objective Intelligibility),是一个客观的语音可懂度评估指标。它通过计算语音信号的时域和频域特征之间的相关性来预测语音的可理解度,范围从0到1,分数越高可懂度越高。它适用于评估噪声环境下的语音可懂度改善效果。

6. SDR (Vincent, Gribonval, and F´evotte 2006): Signal-to-distortion ratio from the mir eval library. The SDR is a very common metric to evaluate source separation systems [22], which requires to know both the clean signal and the enhanced signal. It is an energy ratio, expressed in dB, between the energy of the target signal contained in the enhanced signal and the energy of the errors (coming from the interfering speakers and artifacts). Thus, the higher it is, the better.

7. CSIG (Composite Speech Intelligibility Gain, Hu and Loizou 2007): Mean opinion score (MOS) prediction of the signal distortion attending only to the speech signal (from 1 to 5). 是一个综合语音可懂度提高指标。它同时考虑噪声环境下语音的可懂度(STOI)和无噪声环境下的可懂度基线(STOIno),通过两者的差值来评估语音增强算法对可懂度的改善,范围从0到1,分数越高改善越大。它可以有效评价语音增强系统在噪声环境中的整体效果。

8. CEPS(Complex Essence of Phase Shift):是一个度量语音相位信息变化的指标。由于相位信息对语音的自然性有重要影响,它可以用于评估语音增强处理导致的语音不自然度,范围从0到1,值越小表示语音越自然。它用于评估语音增强算法对语音质量产生的副作用。
9. CBAK (Hu and Loizou 2007): MOS prediction of the intrusiveness of background noise (from 1 to 5).
10. COVL (Hu and Loizou 2007): MOS prediction of the overall effect (from 1 to 5).
11. SSNR: Segmental SNR [35, p. 41] (from 0 to ∞).

References:

PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network
阅读笔记—SEGAN 阅读笔记—VoiceFilter
PESQ: P.862.2: Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Std. P.862.2, 2007.

[22] E. Vincent, R. Gribonval, and C. F´evotte, “Performance measure- ment in blind audio source separation,” IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462– 1469, 2006.

DNSMOS paper