食物声音识别-音频数据特征提取

食物声音识别-音频数据特征提取

** Datawhale开源项目Task3打卡**

  • 今日知识点:过零率,频谱质心、声谱衰减,梅尔频率倒谱系数(MFCC),色度频率以及MFCC特征提取
  • 运用的Python第三方库:numpy, sklearn, librosa, matplotlib

每个特征在声音识别中的用途:

  1. 过零率(zero crossing rate)-- 适用于高冲击性的声音
    代表信号符号变化的比率,即在每帧中,语音信号从正变为负或从负变为正的次数。该特征在语音识别和信息检索领域有广泛应用,尤其是对类似摇滚、金属类高冲击性的声音具有更高的价值。

  2. 频谱质心(Spectral Centroid)-- 常用于对乐器声色的分析研究

  3. 声谱衰减 (Spectral Roll-off)-- 表示低于总频谱能量的指定百分比的频率

  4. 色度频谱 (Chroma Frequencies) – 代表整个频谱被投影到12个区间(代表一个八度)

MFCC特征提取

MFCC (Mel Frequency Cepstral Coefficients)是语音识别领域中最常用的特征提取的方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值