语音质量的度量标准——MOS

原创 2013年12月06日 09:06:13
在介绍语音质量的测量方法之前,首先将对语音质量的度量标准MOS进行简要介绍;VoIP呼叫质量会受噪声、畸变、信号幅度过高或过低、回声、通话间隙和许多其他问题的影响。在测量呼叫质量时,需要研究三类基本的服务质量:

  (1)收听质量——指用户对呼叫过程中所听到的声音质量的评价。

  (2)会话质量——指用户在整个通话过程中基于收听质量和会话能力而对呼叫作出的评价,包括回音和延迟等可能影响通话的相关问题。

  (3)传输质量——指用于承载话音信号的网络连接的质量。传输质量测量是与细节呼叫质量测量相对的一种网络服务质量测量。

  呼叫质量测量的目的是通过主观或客观的测量方法,即通过人为的测量项目或基于计算机的测量工具,对一种或多种以上的呼叫质量类别给出一个可信的估计。

  主观测量是一种久经考验的话音质量测量方法,但这种方法成本太高,费时也太长。有一种更广为人知的主观类测量方法,叫做绝对种类定级(Absolute Category Rating,ACR)测量。

  在ACR测量中,收听者按照从1~5的5级损伤指标对一系列音频文件进行分级(见表1)。

  在取得了每个收听者给出的得分之后,计算所有音频文件的一般或平均意见得分(Mean Opinion Score, MOS)。为了使ACR测量得到可信的测量结果,接受测量的人数至少应在16个以上,而且测量应该在一个安静的环境下,在可控的条件下完成。这种测量方法定义在ITU-T P.800当中,该MOS值就是语音质量的度量尺寸,显然是MOS越大,语音质量越好。


  语音质量测量方法的发展

  上述IUT-T P.800中所定义的方法得到的MOS值是一种主观的测量方法,并且该方法成本太高,费时太长;因此,在后来的研究和探索中,先后出现了如下几种客观测量方法: 
  • PSQM /PSQM+:Perceptual Speed Quality Measure,感知通话质量测量[2],定义在ITU-T P.861当中;
  • PESQ:Perceptual Evaluation of Speed Quality,感知评估通话质量测量[3],定义在ITU-T P.862当中;
  • PAMS:Perceptual Analysis Measurement System,感知分析测量,英国电信定义;
  • E-Model:本文将重点介绍的测量方法,该方法定义在ITU-T G.107当中。
  PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势,并针对MOS和MOS-LQ(Listening Quality)计算方法做了修改。最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。这些方法主要缺点体现在:  
  • 不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的Delay和Jitter和Packet Loss等问题;
  • 不能说明End-to-End的网络延迟,而其他过多的延迟因素影响到了MOS值;
  • 只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;
  • 无法模拟多个或成百上千个重复同步的通话。
  而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用,在下面的章节中将对该模型进行详细的介绍。

  此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准。因此,无论采用何种方法,所有测量方法所得到的结果都必须对应到最终的平均主观值MOS。
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

澳大利亚加拿大北京浙江苏英国留学论坛代办国外文凭QQ421474836证件真实学历学位认证

澳大利亚加拿大北京浙江苏英国留学论坛代办国外文凭QQ421474836证件真实学历学位认证澳洲加拿大北京浙江苏英国留学论坛专业办理国外文凭QQ421474836国外证件真实学历学位认证(查询后付款)北...

语音质量和语音质量的测量

语音质量和语音质量的测量   前言 声音是日常生活中最常见的信息传递方式,人们通过声音彼此交流联系,人的声音的频率范围是20Hz到20KHz,我们通常说话时的频率大部分都集中在300—3...

延时、丢包、抖动,用尽洪荒之力也传不到,该怎么办?

互联网大概可以算是最近几十年人类最重要的发明之一。最早人们用互联网发送电子邮件,接着普及了网页浏览,后来又流行即时文字聊天,人们工作生活的方式在这写年里发生了巨大的变化。可是当人们想更进一步实现实时音...

海量用户实时互动直播架构探索

现在比较流行的直播,经常会出现这样的情况: 用户打了一个弹幕上去,主播念出来的时候,弹幕已经飞出去了。二者时间是不匹配的。这是我们的一个客户,两个主播连线互动,实时交互。试想,如果直播时延时高达几秒,...

关于视频质量的评价标准PSNR

为了进行视频处理,有必要对测量原始信号与处理信号的差别制定客观评价标准。这非常重要,比如在视频编码应用中必须测量由于压缩引起的失真。这样的理想测度应该与两个视频序列之间观察到的差别有很好的相关性。不过...

视频直播质量的评测和实现分享

有一个古老的英语谚语叫A picture is worth a thousandwords,一张图片所传递的信息远超文字,那么一段视频所传递的信息,又远超一张图片。在实际直播过程中,非常理想的情况是:...

你还在靠“喂喂喂”来测语音通话质量吗,看完这篇文章你就能掌握正确姿势。

语音通话开发,对于一般开发者来说比较神秘,很多朋友不太清楚如何全面的评估第三方的音频引擎,如何科学的选择一家靠谱的语音通话服务供应商。 很多朋友还停留在这样的初级阶段:把demo调通,找几个人喂喂喂...

开发一个实时音视频通信系统,你需要什么技术储备?

RTC(real time communication)实时通讯系统是最近互联网应用的一个新领域。RTC系统的应用极其广泛,我们常见的视频电话,会议系统,远程桌面与控制都是RTC系统的一个应用。在移动...

TD频段及频点

TD:频段及频点 F频段(1880~1920MHz,原A频段):共计20MHz, A频段(2010~2025 MHz,原B频段):共计15MHz, 5y,f!x)F#`)A:a |  国内领先的通...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)