文章目录
准备工作
首先需要在pycharm中安装好python_speech_features和librosa两个包。
建议先安装anaconda,然后在anaconda中创建一个虚拟环境,用于安装Pycharm的所有需要的包,然后再在pycharm中导入在anaconda中创建的虚拟环境即可。(同时使用conda命令安装pycharm包比使用pip命令安装成功率更高)。这样可以在任意一台电脑上在pycharm中导入这个虚拟环境都可以随时调用之前安装的包,而不用再去安装pycharm中繁琐的包了。
1 使用python_speech_features进行mfcc
有两种调用方式:
1 在导入包的时候直接将mfcc,logfbank(dct之前的参数),delta(差分)导入
from python_speech_features import mfcc
接着调用:
mfcc_feature = mfcc(wavedata, framerate, winlen=0.064, winstep=0.032, nfilt=13, nfft=1024) # mfcc系数
#其中wavedata为语音数据
#framerate为采样率
#winlen为帧长,单位为秒
#winstep为帧移,单位为秒
#nfilt为返回的mfcc数据维数,默认为13维(但经过我的实验,nfilt最多也只能返回13维的mfcc参数)
#nfft为fft点数,一般要和帧长对应的采样点数要一样
2 在导入包的时候只导入包,不导入具体函数
import python_speech_features
接着在使用该包时需要导入包和具体函数,使用方法如下:
fbank参数(未进行dct和未取对数之前的参数):
fbank_featu