时域特征提取_音频特征提取方法和工具汇总

本文介绍了音频特征提取的类别,包括时域、频域和感知特征,并详细讲解了短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱以及恒Q变换等常用音频处理技术。这些特征和变换在语音识别、音乐信息检索等领域中有着广泛应用。
摘要由CSDN通过智能技术生成

绝大多数音频特征起源于语音识别任务,它们可以精简原始的波形采样信号,从而加速机器对音频中语义含义的理解。从20世纪90年代末开始,这些音频特征也被应用于乐器识别等音乐信息检索任务中,更多针对音频音乐设计的特征也应运而生。

1. 音频特征的类别

认识音频特征不同类别不在于对某一个特征精准分类而是加深理解特征的物理意义,一般对于音频特征我们可以从以下维度区分:

(1)特征是由模型从信号中直接提取还是基于模型的输出得到的统计,如均值、方差等;

(2)特征表示的是瞬态还是全局上的值,瞬态一般以帧为单位而全局则覆盖更长的时间维度;

(3)特征的抽象程度,底层特征抽象程度最低也是最易从原始音频信号中提取,它可以进一步被处理为高一级的中间特征代表乐谱中常见的音乐元素,如音高、音符的起始时间等;高层特征最为抽象大多用于音乐的曲风和情绪任务;

(4)根据特征提取过程的差异可以分为:从原始信号中直接提取的特征(如过零率)、将信号转换为频率得到的特征(如谱心质)、需经过特定的模型得到的特征(如旋律)、受人耳听觉认知启发改变量化特征尺度得到的特征(如MFCCs)。

我们以“特征提取过程的差异”为主要分类基准,列出各类下比较常见的特征:

56a24cd8641a48dc5cb1cd48af96eb03.png

同时我们也发现部分特征并非完全属于其中一个类别例如MFCC,因为提取MFCC会将信号从时域转换至频域然后根据模仿人类听觉响应的MEL尺度过滤器得到的,因此它属于既属于频域特征又属于感知特征。

2. 常用提取工具

下面罗列出一些常用提取音频特征的工具和使用平台。

名称 地址 适配语言
Aubio https://aubio.org c/python
  • 2
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值