VOCBENCH声码器评价基准


Facebook在2021年发表的论文,为了解决vocoder评价过程中因变量不同而导致的难以评估的问题。
论文地址: https://arxiv.org/pdf/2112.03099.pdf
GitHub地址: https://github.com/facebookresearch/vocoder-benchmark

一、数据集和声码器选择

数据集:一个单说话人数据集和两个多说话人数据集。
在相同的环境下训练了六个不同的vocoder
在这里插入图片描述

二、评价指标

生成质量评估

  • MOS(平均意见得分)
  • SSIM(结构相似性):合成波形和真实波形的相似性
  • FAD(相邻音频距离):在embedding集合上估计的两个多变量高斯之间的距离,背景和评估embedding。
  • LS-MSE(mel光谱图均方误差):真实mel谱图和生成图谱之间的计算误差
  • PSNR(峰值信噪比):信号在最佳情况下输出功率和噪声峰值的功率之比。

计算效率评估

  • Params(模型参数量)
  • GFLOPS(每秒浮点运算个数)
  • RTF(实时性能)

三、实验结果

根据表一可以得到:

  • SSIM波形相似性: melgan > griffin-lim > PWG > diffwave > wavegrad > wavenet > wavernn
  • LS-MSE梅尔均方误差: melgan = griffin-lim > PWG 远大于其他
  • PSNR信噪比: melgan > griffin-lim > PWG 远大于其他
  • FAD音频距离: PWG > wavenet > melgan 远大于其他
  • MOS语音自然度: PWG > diffwave > wavernn > wavenet > wavegrad >melgan > griffin-lim
    在这里插入图片描述

根据表二可以得到:

  • Params模型参数量PWG > diffwave > melgan > wavenet > wavernn > wavegrad
  • GFLOPSwavernn > wavenet 远大于其他
  • RTF 计算速度melgan > PWG 远大于其他
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值