食物声音识别-音频数据特征提取

本文介绍了声音识别中的关键特征,包括过零率、频谱质心、声谱衰减、色度频率和MFCC。过零率用于高冲击性声音分析,频谱质心则涉及乐器声色识别,声谱衰减衡量了低于总频谱能量的频率部分,色度频率反映整个频谱分布。MFCC是语音识别的核心,常用于多种声音处理任务。文章还提及了Python中的相关库如numpy、sklearn、librosa和matplotlib在声音特征提取中的使用。
摘要由CSDN通过智能技术生成

食物声音识别-音频数据特征提取

** Datawhale开源项目Task3打卡**

  • 今日知识点:过零率,频谱质心、声谱衰减,梅尔频率倒谱系数(MFCC),色度频率以及MFCC特征提取
  • 运用的Python第三方库:numpy, sklearn, librosa, matplotlib

每个特征在声音识别中的用途:

  1. 过零率(zero crossing rate)-- 适用于高冲击性的声音
    代表信号符号变化的比率,即在每帧中,语音信号从正变为负或从负变为正的次数。该特征在语音识别和信息检索领域有广泛应用,尤其是对类似摇滚、金属类高冲击性的声音具有更高的价值。

  2. 频谱质心(Spectral Centroid)-- 常用于对乐器声色的分析研究

  3. 声谱衰减 (Spectral Roll-off)-- 表示低于总频谱能量的指定百分比的频率

  4. 色度频谱 (Chroma Frequencies) – 代表整个频谱被投影到12个区间(代表一个八度)

MFCC特征提取

MFCC (Mel Frequency Cepstral Coefficients)是语音识别领域中最常用的特征提取的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值