项目介绍
该包 (pymcd) 在 python 中计算梅尔倒谱失真 (MCD),用于通过比较生成的语音和真实语音之间的差异来评估生成的语音的质量。
概述
梅尔倒谱失真(MCD)是衡量两个梅尔倒谱序列差异程度的指标,广泛用于评估语音合成模型的性能。MCD 度量比较分别从生成的语音和地面实况导出的第 k 个(默认 k=13)梅尔频率倒谱系数 (MFCC) 向量。
pymcd 包提供了计算各种形式的 MCD 分数的脚本:
- MCD(plain):传统的MCD度量,要求两个输入语音的长度相同。否则,它会简单地通过为时域波形填充零来将较短的语音延伸到较长语音的长度。
- MCD-DTW:一种改进的MCD度量,采用动态时间规整(DTW)算法来找到两个语音之间的最小MCD。
- MCD-DTW-SL:按语音长度 (SL) 加权的 MCD-DTW 评估两个语音之间的长度和对齐质量。基于 MCD-DTW 度量,MCD-DTW-SL 结合了一个关于两个语音长度之间差异的附加系数。
以上三类MCD的更多细节可以参见V2C:Visual Voice Cloning。
安装
需要Python 3,可以使用pip安装和更新包,即
pip install -U pymcd
例子
from pymcd.mcd import Calculate_MCD
# instance of MCD class
# three different modes "plain", "dtw" and "dtw_sl" for the above three MCD metrics
mcd_toolbox = Calculate_MCD(MCD_mode="plain")
# two inputs w.r.t. reference (ground-truth) and synthesized speeches, respectively
mcd_value = mcd_toolbox.calculate_mcd("001.wav", "002.wav")
转自:pymcd · PyPI