音频特征提取1

音频特征提取1

相信大家都听说过这样一句话:数据和特征决定了机器学习的上限,而模型和算法只是尽可能逼近这个上限。特征工程做得越好,模型各项性能越好。
对于结构化数据,特征工程主要包括特征处理(缺失值处理、异常值处理、无量纲化等)和特征选择(相关分析、降维等)。
对于音频这种非结构化的数据的特征提取也有对应的一些常规的操作。音频分类常用的特征参数有短时能量、过零率、梅尔倒谱系数、信号频谱、线性预测系数等。
音频信号分析一般分为时域分析、频域分析、倒谱域分析、其它域分析。
时域分析计算量小、获取简单,但对于语音、音乐等带有语义和演奏特色的音频信号来说,简单的时域分析无法对其进行有效的表示,因为声音的感知特征主要是通过音频信号的功率谱和频谱等进行表征的,所以普遍会采用频域分析和倒谱域分析获得特征参数。

几个重要的概念:
时域特征
1) 短时能量:是音频信号在一段很小的窗口内的能量之和。常用于音频信号端点的检测。根据短时能量的不同可以将音乐信号分为有声段和无声段,将语音信号分为清音段和浊音段,一般,浊音段的平时短时能量最高,其次是清音段,最低的是无声段。
2) 短时过零率:数字信号波形中由正转负或由负转正的次数于样本点总数的比值。浊音段的平均短时过零率一般要小于清音段的平均短时过零率,主要是因为发清音时引起的频谱的高频跌落导致信号能量大多集中在较低频段,而发浊音时没有产生这种影响,能量大多集中在较高频段。
频域特征
1) 傅里叶变换:可以完成信号从时域到频域的转换,时域上连续的模拟信号被分解为包含不同频率分量的频谱,从而可以根据不同信号中包含频谱的不同进行音频的辨别和分类。
2) 频域能量:一帧信号经傅里叶变换后在频域中的能量。频域能量时区分非静音和静音的有效特征,通常语音中会含有比音乐中更多的静音段,因而,语音中的频域能量要比音乐中的变化大。
3) 子带能量比:将频域划分子带,子带的能量于频域总能量的比值。由于在频域中不同子带区间包含的信号能量大不相同,因此可以于对音频信号的对比和分类。音乐信号的子带能量分布比较均匀,语音信号能量主要集中在初级子带上。
4) 频谱质心:是用来度量频谱中心的特征量,其值越大,表示信号的高频成分越多。一般,不同音频信号的频谱质心不尽相同,音乐信号的频谱质心一般高于语音信号的频谱质心。
5) 频谱带宽:信号在频域中包含谐波的最高频率与最低频率差的绝对值,其反映的是音频信号频率的变化范围,带宽越大则信号频率变化范围越大,反之亦然。根据语音信号和音乐信号频谱带宽的不同(语音信号带宽一般低于音乐信号),可以完成对语音音频和音乐音频的粗略分类。
6) 线性预测系数:是一种用于估计基本音频参数的重要技术,被广泛用于语音分析与合成中。线性预测分析通过使用过去若干采样值的线性组合对信号当前的采样值进行逼近和预测。目的是将目标音频信号通过模型的方式表示出来,不同音频信号对应的模型的参数也不同,通过减小信号实际采样值和模型预测值间的均方误差,可以唯一确定一组预测系数。
7) 基音周期:浊音信号一般带有明显周期性,发浊音时声带振动的频率称为信号的基音频率,此频率对应的周期即信号的基音周期。基音频率的高低影响声音音调的高低,基音频率越高则声音的音调越高,反之亦然。
倒谱域特征
1) 梅尔倒谱系数(MFCC):是基于人的听觉机理在梅尔标度频率域提取出来的信号的倒谱参数,主要通过人的听觉实验结果对音频信号进行分析。梅尔刻度是一种基于人耳对等距的音高变化的感官判断而定的非线性频率刻度。
MFCC特征参数提取
MFCC特征参数提取原理:对音频信号进行分帧、加窗等预处理,进行快速傅里叶变换,用得到的信号频谱计算谱线能量和通过Mel滤波器的能量,最后把Mel滤波器的能量取对数后计算DCT(离散余弦变换)倒谱就得到了MFCC参数。
其他特征:
1) 响度:声音的响亮程度,反映音频信号能量的大小,音强和音高的变化都会对响度产生影响。
2) 响度范围:响度的最大值与最小值的间隔大小。
3) 静音帧比例:短时能量在一定阈值范围内的音频帧,音频信号分帧后,静音帧数量在该音频段总帧数中所占的比重。
4) 小波系数:小波包分解不同于小波分析中仅对低频信号进行再分解,而是同时对低频和高频信号进行再分解,使用小波包基函数完成对信号的映射,通过小波变换的多次迭代完成对输入信号的细节部分的分析。

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值