在语音识别领域,比较常用的两个模块就是librosa和python_speech_features了。
最近也是在做音乐方向的项目,借此做一下笔记,并记录一些两者的差别。下面是两模块的官方文档
LibROSA - librosa 0.6.3 documentationlibrosa.github.io Welcome to python_speech_features’s documentation!python-speech-features.readthedocs.io直接对比两文档就可以看出librosa功能十分强大,涉及到了音频的特征提取、谱图分解、谱图显示、顺序建模、创建音频等功能,而python_speech_features只涉及了音频特征提取。就特征提取的实现方法和种类来看,两者也有所不同。
python_speech_features的特征
支持的特征:
- python_speech_features.mfcc() - 梅尔倒谱系数
- python_speech_features.fbank() - 滤波器组能量
- python_speech_features.logfbank() - 对数滤波器组能量
- python_speech_features.ssc() - 子带频谱质心特征
提取mfcc、logfbank特征的方法
from
python_speech_features的比较好用的地方就是自带预加重参数,只需要设定preemph的值,就可以对语音信号进行预加重,增强高频信号。
python_speech_features模块提供的函数
python_speech_f