polqa语音质量评估方法算法研究

最新推荐文章于 2024-01-08 15:22:00 发布

不够爆炸

最新推荐文章于 2024-01-08 15:22:00 发布

阅读量6.5k

点赞数 6

文章标签：语音识别算法

本文链接：https://blog.csdn.net/weixin_40543696/article/details/123303424

版权

1.客观语音质量评估方法

ITU- T提出的P.862 PESQ 和 P.863 POLQA两种客观语音质量评估方法都基于感知模型，原理基本一致，主要差别在于认知模型，在算法细节上有了明显的改进。PESQ和POLQA的原理如图所示。

PESQ算法主要工作流程首先是将参考信号和劣化信号做电平调整和滤波，然后通过时间对齐得到延迟信息，并且参考信号和劣化信号经过感知模型的处理得到两者的感知差异，最后计算MOS评分结果。

P.862算法提供的PESQ分值范围是-0.5～4.5，和主观MOS分值还有差距。因此P.862.1提供了一个PESQ分值向MOS分值映射的函数。该映射得到的MOS- LQO分值范围是1.02～4.56。映射公式如下，其中y为MOS- LQO分值，x为PESQ分值。

为适应宽带语音质量测试的需要，P.862.2对PESQ 算法适用的音频范围扩展到50-7000Hz。但是PESQ算法仍存在缺陷，如对采用噪声抑制和回声消除技术语音编码方案的测试结果不可靠，不适用更高编码速率以及超宽带音频范围等。为此ITU- T推出了P.863 POLQA 语音质量评估方法，其适用于50-1400Hz的音频处理范围和更高的语音编码速率，可提供更准确的语音质量评估。

2.POLQA算法概述

ITU- T P.863 POLQA算法流程如图所示。参考信号和劣化信号经过滤波、时间对齐、采样率估计、客观感知、评分得到POLQA分值，最后映射到MOS-LQO分值。参考信号称为语料，一般有8k/16k/48k三种采样速率。

2.1时间对齐

时间对齐时需要将参考信号和劣化信号分割为很小的时间片，称为宏帧。根据参考信号采样频率的不同，宏帧的长度也有所不同。

对齐的目的是计算宏帧时延，时间对齐分为以下几个步骤:滤波、预校准、粗校准、细校准、分部合并。

（1）滤波

POLQA算法根据音频范围的不同，有两套操作模式。在时间对齐阶段，为最大限度地减少噪音对时间对齐的影响，参考信号和劣化信号首先都要通过一个带通滤波器，形状取决于是窄带模式还是超宽带模式。超宽带模式的带通滤波器范围是320—3400Hz; 窄带模式的带通滤波器范围是290—3300 Hz。时间校准阶段加入带通滤波器的主要原因是由于300— 3500 Hz范围内语音信号的延迟估计可靠性比较高。

（2）预校准

预校准目的是计算每对宏帧的初始时间延迟，并预估延迟搜索范围。首先确定劣化信号的解析点，解析点表示语音信号从停顿到活动的转换位置，通过计算解析点的初始延迟得到宏帧的延迟信息。本步骤产生4个向量:宏帧延迟、延迟的可靠性指示以及延迟搜索范围的上下限。

（3）粗校准

粗校准是基于每个宏帧预校准结果计算的，首先将宏帧细分为更小的8个特征帧，对第一个特征帧计算出第一个初始特征向量后，根据迭代算法不断计算出新的特征向量，其精度随迭代次数的增加不断提高，由此得到与特征帧时延有关的相关系数矩阵，最后得到宏帧延迟信息。

（4）精细校准

精确校准在前一步宏帧粗对齐的基础上，计算出每个宏帧的精确延迟。精确校准的过程类似于粗校准，最大差别是没有使用迭代算法，而是采用回溯算法找出最精确的延迟。

（5）分段合并

所谓分段合并是基于宏帧延迟结果，将每段的延迟、可靠性、起止点、语音活动情况等信息存储起来，然后和下一段信息进行比较后决定是否合并。如果下一段信息包含语音活动信息且两段的延迟都不超过3ms，或者是一段信息包含语音停顿信息且两段信息的延迟时间都不小于15 ms，就将这相邻的两段信息合并在一起，然后再和下一段信息进行比较。有关语音信号的起止点、延迟信息的合并结果被送入感知模型。

2.2劣化信号采样率估计及重新采样

根据时间对齐的宏帧延迟结果预估劣化信号的采样率。如果劣化信号的采样率与标准信号采样率的偏差大于0.5%，就需要对采样速率较高的信号采样，然后重新执行上一步的时间对齐的计算步骤。

2.3核心模型

核心模型包括感知和认知两部分，分别对语音做客观感知描述和认知评分。人对声音的主观感知主要用响度表示，客观描述指标主要涉及到音调、音色、音量等方面。其中音调由基音决定，音色由泛音决定，音量与波形振幅有关。

（1）感知模型

感知模型主要是模拟人耳的感觉器官，根据听觉的掩蔽效应将声音响度映射为巴克域响度指标，然后用客观指标表述语音感知。POLQA感知模型输出的客观性指标主要有频率响应指示、噪音指示、混响指示以及三个描述语音内部差异的指标:时间-音调-响度，另外还有6个与音量/噪声/音色等有关的补偿性指标。POLQA感知模型的主要计算步骤如下:

1)首先设定窗口长度和语音的起止点，将音频通过FFT变换到频域，然后音高功率振幅被归一化到频率为1 kHz正弦波，声压等级为40 dB SPL的基准刻度;

2)语音信号从频域映射到巴克域音高功率密度的计算;

3)计算频率响应、噪音和室内混响的指标;

4)对参考信号和劣化信号进行电平、噪音等方面的补偿;

5)响度密集度计算，主要将音高的功率密度转换为听觉的响度密度;

6)内部感知差异的计算，并根据相关结果计算响度扰动密度，用于认知模型评分。

（2）认知模型

认知模型基于感知模型输出的扰动密度、客观性指标(频率响应指示、噪音指示、混响指示)以及6个补偿性指标计算出原始POLQA值，用一个三阶多项式再映射为MOS-LQO值。在窄带模式下，MOS-LQO分值最大为4.5，在超宽带模式下，MOS-LQO分值最大为4.75。