python_speech_features.mfcc() -梅尔频率倒谱系数
python_speech_features.fbank() -滤波器能量
python_speech_features.logfbank() -Log Filterbank能量
python_speech_features.ssc() -频谱子带质心
python_speech_features Params:
- signal:用来计算梅尔频率倒谱系数特性的音频信号。是一个N1的数组
- samplerate:音频信号的采样率
- winlen:分析窗口的长度,以秒为单位。默认值为0.025s(25毫秒)(ps: 短时傅里叶变换的窗口长度)
- winstep:连续窗口之间的步长,以秒为单位。默认值为0.01s(10毫秒)
- numcep:返回倒谱的数量,默认为13
- nfilt:滤波器组中的过滤器数量,默认为26个。
- nfft:FFT大小。默认是512。
- lowfreq:梅尔滤波器的最低频带边缘。在频率(HZ)中,默认值为0。
- highfreq:梅尔过滤器的最高频带边缘。在频率(HZ)中,默认值为1/2倍音频信号采样率
- preemph:采用preemph为系数的预加重滤波器。0不是过滤器。默认是0.97。
- ceplifter:将一个lifter应用到最终倒谱系数。0不是lifter。默认是22。
- appendEnergy:如果这个参数的值是True,第0阶倒谱系数被替换为总帧能量的对数。
- winfunc:分析窗口应用于每一帧。默认情况下不应用任何窗口。
Return:
返回一个大小(NUMFRAMES窗口数量 , numcep倒谱数量)的numpy数组,其中包含一些特性。每一行包含一个特征向量。