VOCBENCH声码器评价基准

最新推荐文章于 2024-06-08 09:56:45 发布

崔西的梅尔之旅

最新推荐文章于 2024-06-08 09:56:45 发布

阅读量2.3k

点赞数

分类专栏：声码器生成模型文章标签： python 人工智能音频

本文链接：https://blog.csdn.net/qq_32766309/article/details/121768753

版权

声码器生成模型专栏收录该内容

2 篇文章 0 订阅

订阅专栏

VOCBENCH目录

一、数据集和声码器选择
二、评价指标
三、实验结果

Facebook在2021年发表的论文，为了解决vocoder评价过程中因变量不同而导致的难以评估的问题。
论文地址： https://arxiv.org/pdf/2112.03099.pdf
GitHub地址： https://github.com/facebookresearch/vocoder-benchmark

一、数据集和声码器选择

数据集：一个单说话人数据集和两个多说话人数据集。
在相同的环境下训练了六个不同的vocoder
在这里插入图片描述

二、评价指标

生成质量评估

MOS(平均意见得分)
SSIM(结构相似性)：合成波形和真实波形的相似性
FAD(相邻音频距离)：在embedding集合上估计的两个多变量高斯之间的距离，背景和评估embedding。
LS-MSE(mel光谱图均方误差)：真实mel谱图和生成图谱之间的计算误差
PSNR(峰值信噪比)：信号在最佳情况下输出功率和噪声峰值的功率之比。

计算效率评估

Params（模型参数量）
GFLOPS（每秒浮点运算个数）
RTF（实时性能）

三、实验结果

根据表一可以得到：

SSIM波形相似性： melgan > griffin-lim > PWG > diffwave > wavegrad > wavenet > wavernn
LS-MSE梅尔均方误差： melgan = griffin-lim > PWG 远大于其他
PSNR信噪比： melgan > griffin-lim > PWG 远大于其他
FAD音频距离： PWG > wavenet > melgan 远大于其他
MOS语音自然度： PWG > diffwave > wavernn > wavenet > wavegrad >melgan > griffin-lim