一、语音的深度学习使用哪种谱?
答:以“幅度谱”和“梅尔谱”为主,通常可以用librosa库或者torchaudio库进行提取。
梅尔谱:在幅度谱的基础上,乘以一个“梅尔变换”,得到80维度的梅尔谱。 这种谱的80个频率组更接近人耳的听觉感知范围。但是相应地,蕴含的语音信息比幅度谱要少一些。因此,在一些面向人类的语音任务中较为常用。
注意,深度学习中的梅尔谱大多数情况下指对数梅尔谱!! !
- “幅度谱”的频率组中的频率以线性等间隔增加;10Hz、20Hz、30Hz、…
- “梅尔谱”的频率组中的频率以对数间隔增加;10Hz、15Hz、17Hz、18Hz、…
- 从2015年深度学习广泛取得较好的效果以来,大多数语音任务普遍采用STFT(amp) 谱或者melspec作为训练输入。
- melspec在大多数论文中默认是取对数的,即使论文本身使用的单词是melspec,但 是实际上训练的时候,代码中会加上log ( ) 函数。
- STFT谱的特征维度可以随意,一般习惯使用1024、512、256维,但是较多的训练过程的melspec还是采用80维。
一般情况下设定参数如下:
- 幅度谱:n_fft = 1024(n_dim = 513);
- 梅尔