能用来区分语音和音乐信号的音频特征有很多种,如感觉特性、能量、功率谱和Mel频标倒谱(MFCC)系数,能量、平均过零率、基频和功率谱峰值等。以下介绍一种基于子带音调个数比与频谱倾斜度相结合的区分方法。
一、基本原理
不同类型的音频,其音调分量在各个子带的分布有所不同。语音的音调分量绝大部分分布在低频处,而音乐的音调分量在各个子带的分布则相对较均匀。利用该特性可区分音乐与语音信号。
由于某些敲打式的突变音乐信号,其音调分布特性较接近于语音的音调分布特性。因此仅用子带音调分量区分准确度不高。为解决这一问题,引入频谱倾斜度特征。一般来说,语音与音乐的平均频谱倾斜度主要分布在[0.650,0.995]的范围内,但对于一些敲打式的突变音乐信号,其频谱倾斜度的值很小,小于0.650。另外,有些音乐频谱倾斜度的值可达到很高,大于0.995。该特性能较好的区分子带音调分量不能区分的突变音乐信号。
二、方法实现
2.1子带音调个数比
对信号进行分帧处理,帧长为N。用汉明窗对每帧输入时域信号进行加窗,然后对加窗信号进行FFT变换,并计算其功率密度谱X(k),x(k)也称为频谱系数。由于FFT是关于N12对称的N/2,因此只需计算前N/2个频谱。
将频域划分为4个子带SBi,分别为 [0,N/16],[N/16,N/8],[N/8,N/4]和[N/4,N/2]。当频谱系数X(k)符合X(k-1)<X(k)<