食物语音识别(音频数据特征提取)

本文探讨了音频数据的特征提取,包括过零率、频谱质心、声谱衰减和色度频率等。重点介绍了MFCC特征提取的过程,模拟人耳感知声音的梅尔频谱和梅尔倒谱的概念,以及它们在语音识别中的应用。
摘要由CSDN通过智能技术生成

在上文音频数据探究的基础上,探究音频数据的特征提取。

常见的音频特征提取

过零率

过零率(zero crossing rate)是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。

一般情况下,过零率越大,频率近似越高。

x, sr = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')
#绘制声波信号
plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)
# 放大
n0 = 9000
n1 = 9100
plt.figure(figsize=(14, 5))
plt.plot(x[n0:n1])
plt.grid()

在这里插入图片描述数了一下15个过零点,我们开源用librosa库进行验证,输出过零点个数:

# 计算过零率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值