食物声音识别-音频数据特征提取
** Datawhale开源项目Task3打卡**
- 今日知识点:过零率,频谱质心、声谱衰减,梅尔频率倒谱系数(MFCC),色度频率以及MFCC特征提取
- 运用的Python第三方库:numpy, sklearn, librosa, matplotlib
每个特征在声音识别中的用途:
-
过零率(zero crossing rate)-- 适用于高冲击性的声音
代表信号符号变化的比率,即在每帧中,语音信号从正变为负或从负变为正的次数。该特征在语音识别和信息检索领域有广泛应用,尤其是对类似摇滚、金属类高冲击性的声音具有更高的价值。 -
频谱质心(Spectral Centroid)-- 常用于对乐器声色的分析研究
-
声谱衰减 (Spectral Roll-off)-- 表示低于总频谱能量的指定百分比的频率
-
色度频谱 (Chroma Frequencies) – 代表整个频谱被投影到12个区间(代表一个八度)
MFCC特征提取
MFCC (Mel Frequency Cepstral Coefficients)是语音识别领域中最常用的特征提取的方法。