5.1 音乐特征的提取
音乐特征提取是指从音乐的波形文件中获得一组能够描述音乐信号特征的参数的过程。由于音乐属于语音的一种,我们考虑使用常用的语音信号特征作为音乐特征。特征的选择和提取是系统构建的关键。
特征提取模块负责计算音乐的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数,以降低维数并便于后继处理。音乐分类系统常用的特征参数有幅度、频域能量、子带能量、过零率、线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映人耳听觉特性的Mel频率倒谱系数(MFCC)等。这些特征都能对音乐分类起到一定的辅助作用,但在音乐分类中起主要作用的还是MFCC系数[1],MFCC符合人们的听觉特性,具有较好的稳健性。
5.1.1 MFCC的提取
在语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数,由于MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合,因此目前大多数语音识别系统中广泛使用这种特征。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC[2]。
如图2所示,MFCC参数的提取包括以下几个步骤[3]:
(1)预滤波: 用 900Hz 低通滤波器对一帧音频信号进行滤波,并去掉开头的 20 个输出值不用,得到;
(2)A/D变换:8kHz的采样频率,12bit的线性量化精度;
(3)预加重处理:预加重的目的是提高高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。在参数分析之前在计算机里用具有 6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器,;
(4)分帧:为了保证了语音信号在每一帧内保持短时平稳,在预处理阶段首先应对原语音信号进行分帧处理采样周期、窗口长度N和频率分辨率存在关系,根据不同的需要选择合适的窗口长度。
(5)加窗: 采用哈明窗(Hamming window)对一帧语音加窗,以减小吉布斯效应的影响;
(6)快速傅立叶变换(FastFourierTransformation,FFT): 将时域信号变换成为信号功率谱;
(7)三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
图2 MFCC参数提取步骤
(8)求对数:三角窗滤波器组的输出求取对数,得到近似于同态变换的结果;
(9)离散余弦变换(DiscreteCosineTransformation,DCT):即转换为两次一维变换,其间通过转置矩阵连接,去除各维信号之间的相关性,将信号映射到低维空间;
(10)谱加权:倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数;
(11)倒谱均值减(CepstrumMeanSubtraction,CMS):CMS以减小语音输入信道对特征参数的影响;