在本文件夹的 low-level features and timbre文本有有对相应的特征参数代表的物理意义的解释
来自文献 全自动中文新闻字幕生成系统的设计与实现
频谱质心(spectral centroid,SC)频谱能量的集中点,一般来说,此值越小,说明越多的能量集中在低频范围内。
频谱差分幅度(spectral flux,SF)一个音频段中的相邻两帧之间谱的平均变化量
频谱截止频谱(spectral roll off frequency,SRF)把频率小于等于该值的所有信号的能量相加,其和为总能量的固定比例(可设定)
频谱峰度(spectral kurtosis,SK)描述频率分布曲线形态陡缓程度的统计量
梅尔频率倒谱系数(mei-frequency cepstral coefficients,MFCC)在梅尔频率尺度上进行频谱分析,梅尔频率尺度与实际频率关系为 Mel(f) =2595lg(1+f/700)。
线性预测倒谱系数(linear predictive cepstral coefficients,LPCC)由线性预测系数变换得到。线性预测的基本思想:用过去的p个样点值来预测未来的样点值。
短时能量均方值(root-mean-square,RMS)一帧的短时能量的均方值
过零率(zero-crossing rate,ZCR)一帧中信号波形穿过横轴(零电平)的次数
高过零帧比率(high zero-crossing rate ratio,HZCRR)一个音频段内过零率超过zcr值的帧数目,zcr值为所有帧的过零率平均值的1.5倍
低能帧比率(low short-time energy ratio,LSTER)一个音频段内能量低于此段内短时能量平均值0.5倍的帧数目
噪音帧比率(noise frame ratio,NFR)一个音频段内噪声帧所占比例
谱矩(spectral moments,SM)
http://www.audiocontentanalysis.org/code/