语音质量评估

最新推荐文章于 2024-01-16 14:37:13 发布

hcqwertyuiop123

最新推荐文章于 2024-01-16 14:37:13 发布

阅读量5.2k

点赞数 2

文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/hcqwertyuiop123/article/details/122244627

版权

本文探讨了语音质量评估的两种主要方法：主观的MOS（Mean Opinion Score）和客观的MCD、F0RMSE等指标。MOS通过用户打分反映主观感受，包括MOS值对应的质量等级和测试要求。客观方法如MCD测量MFCC特征差异，F0RMSE关注基频精度。了解这些技术有助于优化语音合成系统的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音合成质量评估

语音质量评测方法：
1、主观方法：MOS、CMOS、MUSHRA

2、客观方法：MCD、F0 RMSE、F0 MSE、 E MSE、Dur MSE、 mel loss

主观方法介绍：

MOS（Mean Opnion Score）平均意见得分。

在实时通讯领域，国际电信联盟（ITU）将语音质量的主观评价方法做了标准化处理，代号为ITU-T P.800.1。其中收听质量的绝对等级评分（Absolute Category Rating, ACR）是目前比较广泛采用的一种主观评价方法。在使用ACR方法对语音质量评价时，参与评测的人员对语音整体质量进行打分，分值范围为0-5分，分数越大表示语音质量最好。

级别	MOS值	评价标准
4.0~5.0	很好，听得清楚；延迟小，交流流畅
3.5~4.0	稍差，听得清楚；延迟小，交流欠流畅，有点杂音
3.0~3.5	还可以，听不太清；有一定延迟，可以交流
1.5~3.0	勉强，听不太清；延迟较大，交流需要重复多遍
0~1.5	极差，听不懂；延迟大，交流不通畅

一般MOS应为4或者更高，这可以被认为是比较好的语音质量，若MOS低于3.6，则表示大部分被测不太满意这个语音质量。
MOS测试一般要求：

足够多样化的样本（即试听者和句子数量）以确保结果在统计上的显著；
控制每个试听者的实验环境和设备保持一致；
每个试听者遵循同样的评估标准。

CMOS （comparison mean option score）
在比较平均选项分数（CMOS）测试中，测试人员每次听两个音频，并使用一个测试中的分数来评估后者与前者相比的感觉，范围为[−3，3]，间隔为1。
MUSHRA （MUlti Stimulus test with Hidden Reference and Anchor）
MUSHRA 打分范围0-100 分，可以对非常小的差异进行评级。取消那些对超过 15% 的所有测试项目的隐藏参考评分低于 90 MUSHRA 分的听众资格。

客观方法介绍：

MCD （Mel cepstral distortion）
它表示的是转换后语音的 MFCC 特征与标准输出语音的 MFCC 特征的差距，越小越好，单位为DB。设某一帧的标准输出特征为 $y$ ，而合成后的特征为 $\hat y$ ，则这一帧的 MCD 定义为：

$MCD(y,\hat y)=\frac{10\sqrt2}{ln 10}\|y-\hat y\|_2\tag{1}$

但研究发现，它与人们主观感受到的音质的相关性并不够强。
F0 RMSE 基频的均方根误差,单位HZ。 $f 0$ 表示目标 $f 0$ 特征， $\hat f0$ 表示预测的 $f 0$ 特征。RMSE的值越低表示基频轮廓越接近，效果越好。
$RMSE(f0,\hat f0)=\sqrt{\frac{1}{N}\sum\limits_{i=1}^{N}(f0_i-\hat f0_i)^2}\tag{2}$
F0 MSE、 Energy MSE、Duration MSE 和 mel loss分别是基频的均方误差，能量的均方误差，持续时间的均方误差和梅尔频谱的损失，计算方式和（2）式类似，只是无需开根号。