国际电信联盟ITU在90年代中开始对端到端的语音质量自动客观测试技术进行标准化的工作,并从此发展出三个主要的测试算法可供进行自动和可重复性的测试:
- PAMS(Perceptual Analysis/Measurement System)是由英国电信开发出来,它根据收听费劲程度和收听质量,利用感官模型比较声源信号和经过网络传输后退化的接听信号。PAMS分析退化信号中发现的不同类型的错误,将不同类型错误参数化并映射到预测感官模型上。这个模型是在进行大量的主观听力测试后建立的一个数据库。评测的结果给出一个综合意见评分值MOS,分值范围在1-5之间,5分代表最佳质量分值。
- PSQM(Perceptural Speech Quality Measurement)是由荷兰的KPN研究机构开发出来,用于测量数字编码器的客观质量。最早被广泛应用的编码器测量手段是测试语音信号的信噪比S/N,但这种测试方法对现代越来越多的低压缩比编码器并不适用。PSQM则比较声源信号和退化信号,测出后者的失真程度、噪音和保真度。它已被ITU制定成R.861推荐规范,并有了一个增强型算法PSQM+,可更有效地分析大量瞬时失真。但这两种算法对信号过滤、不同的延时和短暂局部失真不作处理。
- PESQ(Perceptual Evaluation of Speech Quality)是由英国电信和KPN共同开发出来,并在2001年被ITU采纳为P.862规范。它比较声源信号和退化信号并给出一个类似人工听力评估测试的MOS分值。但它的功能要强大得多,不仅能测试象解码器这样的网络单元的效果,也能测量端到端的声音质量。它着重针对不同的信号退化原因,如编解码失真、错误、丢包、延时、抖动和过滤,给出-0.5到4.5的分值范围内的值。大多数情况下正常的分值范围在1到4.5之间,1代表最低值。
- E-Model:该方法定义在ITU-T G.107当中。
PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。这些方法主要缺点体现在:
● 不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和Packet Loss等问题;
● 不能说明End-to-End的网络延迟,而其他过多的延迟因素影响到了MOS值;
● 只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;
● 无法模拟多个或成百上千个重复同步的通话。
而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用。
语音质量测试的主要参数包括:
(1)时延(Delay),当一个数据包发送时,发送端在RTP报文头上增加一个时间戳;当在另一端被接收时,接收端同样记下接收包的时间戳;计算这两个时间戳之差可以得到这个数据包在网络中的通路时间,即时延。