librosa能量_音频特征(1):mfcc提取

本文介绍了MFCC(梅尔频率倒谱系数)的概念,它是音频特征之一,常用于音频分类的机器学习。通过Python的librosa库展示了如何提取MFCC并将其可视化,为音频分析提供基础。
摘要由CSDN通过智能技术生成

除了调用FFmpeg来做多媒体开发,另一方面,是对音频特征进行研究。有很多具体的音频特征,比如频率、振幅、节拍(bpm)、过零率、短时能量、MFCC等,在很多时候,提取这些特征是进一步分析音频的基础。

如果你想对音频进行一个分类,比如分出快慢歌、分出爵士跟hiphop、分出钢琴与吉他、分出男高音与鸟叫声,等等,这时,基本上,你离不开音频特征的提取。在众多的音频特征中,频率与MFCC,是经常用到的两个特征。

本文主要介绍MFCC的概念,以及如何提取MFCC。

这里先回顾一下频率的概念,然后再介绍MFCC的提取。

(1)频率

频率,就是1秒内振动的次数。

音频的频率,反映了音调的高低,比如400HZ,相当于小蜜蜂嗡嗡的声音频率。

现在流行的机器学习,普遍以图片作为输入样本,所以把频率图像化是一个有效的办法。频率图像化,最自然的做法,就是绘制成频谱图,比如小程在另一篇文章介绍用python的pyplot来绘制,这个样子:

单通道的语谱图

但上面这个只是时域的频谱图,更常用的是频域的频谱图(或叫幅频图),这里不展开。

一般来说,用于机器学习时,并不能把整个语谱图作为输入,还需要进行合理的切片,甚至是清洗处理,然后再作为输入,但这个不是这里的内容。

(2)MFCC

MFCC,Mel-FrequencyCepstralCoefficient

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值