前言
近年来,线上音视频的产品形态和应用场景越来越丰富,疫情更加速了许多行业线下转线上的布局,音视频技术也越来越受到各大厂的重视,Zoom的股价飞升,腾讯、字节、阿里等等巨头的大力投入,令这个赛道的竞争越发激烈。在这个激烈的竞争环境下,所有的赛道玩家都很清楚,好的音视频体验,将是决定产品成功与否的最重要因素之一。在本篇内容中我们将主要围绕音频质量评估的一些重要标准,来讲讲不同评价体系里的标准、内容、相互关联和一些个人见解。
在介绍各种评价标准和算法之前,有一个组织必须要重点介绍,ITU (International TelecommunicationUnion) 国际电信联盟简称国际电联,ITU是主管信息通信技术事务的联合国机构,旗下有一个专门制定电信标准的分支机构ITU-T(ITU Telecommunication Standardization Sector of ITU)。
01 主观音频质量评价标准:MOS in ITU-T P.800
说起音频质量的评价,它并不是现在才出现的。早在电话发明之后,如何系统地评价语音质量就成了一个难题。ITU-T 作为通信领域制定标准的权威机构,当然不会坐视不管,于是在1996年8月30日,正式推出了P.800: Methods for subjective determination of transmission quality标准。在这个标准里面有一个重要的指标被提出来,那就是今天被沿用最为广泛的主观评价标准 MOS(Mean Opinion Score)。
有些人可能觉得这个标准好简单,不就是1-5分的打分么?可是事实上并不是,主观的质量评价要想成为可重复使用的评价标准是很难的。不同环境、心情、知识储备、职业、听力范围及灵敏度等等背景的人都可能会对同一个声音给予不同的评分,甚至一个人在不同时间和背景下对于同一段语音质量,也会给予不同的主观评分。所以光有一个MOS评分是远远不够的,在标准里面还推荐了多种可行的测试方案,比如在Listening-opinion tests测试方案中给出了"Absolute Category Rating" (ACR) 。里面规定用短分组的不相关的句子测试,并且这些句子是通过一系列标准测试验证过的,然后在相同的测试方案下,相同的物理条件和传输系统下,来对比测试的结果。这样测试方案就具备较高程度的结果一致性。而这里说的物理条件包含非常的细致,例如测试线材、噪声(底噪;环境噪