- 提取12维MFCC特征和23维FBank
import librosa import numpy as np import matplotlib.pyplot as plt import librosa.display from scipy.fftpack import dct # 绘制频谱图 def plot_spectrogram(spec, note): fig = plt.figure(figsize=(20, 5)) heatmap = plt.pcolor(spec) fig.colorbar(mappable=heatmap) plt.xlabel('Time(s)') plt.ylabel(note) plt.tight_layout() #preemphasis config alpha = 0.97 #滤波器系数(α) # Enframe config frame_len = 400 # 25ms, fs=16kHz frame_shift = 160 # 10ms, fs=15kHz fft_len = 512 #参与FFT运算的512个数据 # Mel filter config num_filter = 23 num_mfcc = 12 # Read wav file wav, fs = librosa.load('./test.wav', sr=None) #Librosa默认的采样率是22050,如果需要读取原始采样率,需要设定参数sr=None ##plt.plot(wav) ##plt.show() #print(fs) plt.figure() librosa.display.waveplot(wav, fs) plt.show() # Pre-Emphasis def preemphasis(signal, coeff=alpha):
语音-MFCC,Fbank特征提取
最新推荐文章于 2024-07-04 15:03:08 发布
本文详细介绍了如何使用Python进行12维MFCC和23维FBank特征提取,这两种特征在语音识别和机器学习任务中至关重要。
摘要由CSDN通过智能技术生成