1. 语音质量评估(SQA)
1.1 主观评价和客观评价
语音质量评估(Speech Quality Assessment,SQA),就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。
-
主观评价就是通过人类(听声人员) 对语音进行打分,比如
MOS
、CMOS
和ABX Test
。主观评价方法是基于大量听音人对原始声音信号和失真声音信号进行对比测听的基础上,根据某种预先规定的尺度对失真信号进行质量等级划分,它反映了听音人员对声音质量好坏程度的一种主观印象,这种评价是用户对音频质量的真实反映。
-
客观评价即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如
PESQ
和P.563
这样的有参考和无参考的语音质量评价标准。客观评价方法多采用某个特定的参数去表征声音通过数字音频系统后的失真程度,并以此来评估处理系统的性能优劣。
在大多数情况下,主观评价相对于客观评价而言,更能全面、有效地反映音频处理技术的性能,而客观评价多用于声音信号相关参数的性能评测。
1.2 主观音频评价标准
ITU-T 评价标准
ITU-T P.800
《语音质量的主观评价方法》
其本质是平均意见得分(MOS)ITU-T P.830
《电话宽度和宽带数字语音编码器的主观评价方法》ITU-T P.805
《对话质量的主观评价》
ITU-R评价标准
ITU-R B5.1116
《多声道音频系统中小损伤主观评价方法》ITU-R B5.1285
《音频系统中小拟伤主观评价的预选方法》ITU- R B5.1534
《 中等质量音频系统的主观评价方法》
1.3 客观音频评价标准
根据评价对象的不同,语音和音频质量的客观评价方法主要有基于输入-输出和基于输出两种。
- 基于输入-输出
基于输入-输出的评价是指系统同时具备输入音频( 一般为原始未失真的) 和输出音频( 经过音频系统处理的),再边过提取两种信号的特征参数来建立评价模型并给出客观评价结果。 - 基于输出
基于输出的评价是指在没有原始信号的条件下仅根据系统的输出信号进行质量评价的方法。
基于输入-输出的评价方法研究较多,产生的标准也较多,基于输出的评价方法因其实用性和可操作性逐渐成为国内外学者研究的重点,但研究难度较大,产生的标准也少。
3.3 一些概念
- 信噪比(SNR)
信噪比 (Signal-to-Noise Ratio,SNR)一直是衡量针对宽带噪声失真的语音增强算的常规方法。但要计算信噪比必需知道纯净语音信号,但在实际应用中这是不可能的。
因此,SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。 信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。 - 分段信噪比(SegSNR)
分段信噪比(Segment Signal-to-Noise Ratio,SegSNR)。由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。
2. 主观评价指标
平均意见得分(MOS)
MOS评测实际是一种很宽泛的说法。由于给出评测分数的是人类,因此可以灵活的测试语音的不同方面。
在实时通讯领域,国际电信联盟(ITU)将语音质量的主观评价方法做了标准化处理,代号为ITU-T P.800.1
。其中收听质量的绝对等级评分(Absolute Category Rating, ACR) 是目前比较广泛采用的一种主观评价方法。在使用ACR方法对语音质量评价时,参与评测的人员对语音整体质量进行打分,分值范围为1-5
分,分数越大表示语音质量最好。
一般MOS应为4
或者更高,这可以被认为是比较好的语音质量,若MOS低于3.6
,则表示大部分被测不太满意这个语音质量。
除了绝对等级评分,其它常用的语音质量主观评价有失真等级评分(Degradation Category Rating, DCR)和相对等级评分(Comparative Category Rating, CCR),这两种方式不仅需要提供失真语音信号还需要原始语音信号,通过比较失真信号和原始信号获得评价结果(类似于ABX Test),比较适合于评估背景噪音对语音质量的影响,或者不同算法之间的直接较量。
失真等级评分(CMOS)
ABX Test
3. 客观评价指标
客观质量评估算法大概分三类,主要取决于是否使用无损的源视频作为参考。
1、全参考:比如PSNR就是典型的全参考算法,通过与源视频进行各种层面比对,来衡量损伤视频的质量。
2、无参考:有的算法不使用源视频,只使用接收端的视频,来衡量它自己本身的质量。
3、部分参考