食物声音识别的特征提取
当拿到一些音频数据后,怎么对这些数据进行处理呢?接下来我们了解一下怎么用一些特征来描述音频数据。
常见的音频特征提取
1、过零率
是一个信号符号变化的比率。即,在每帧中,语音信号从正变为负或从负变为正的次数,这个特征已在语音识别和音乐检索领域得到广泛应用,通常对类似金属、摇滚等高冲击性的声音具有更高的价值。一般情况下,过零率越大,频率近似越高。
Python实现
x , sr = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')
#绘制声波图像
plt.figure(figsize = (14,5))
librosa.display.waveplot(x, sr = sr)
n0 = 9000
n1 = 9100
plt.figure(figsize = (14,5))
plt.plot(x[n0:n1])
plt