基本概念
过零率
在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。
光谱质心
它指示声音的“质心”位于何处,并计算为声音中存在的频率的加权平均值。
计算为声音中存在的频率的加权平均值。如果有两首歌曲,一首来自布鲁斯类型,另一首属于金属。与长度相同的布鲁斯流派歌曲相比,金属歌曲在最后有更多的频率。因此,布鲁斯歌曲的光谱质心将位于其光谱中间附近,而金属歌曲的光谱质心将朝向它的末端。
梅尔频率倒谱系数(MFCC)
它是一小组特征(通常10-40),其简明地描述了频谱包络的整体形状。
包括分帧,加窗,fft等步骤。
参考https://blog.csdn.net/jojozhangju/article/details/18678861
色度频谱
它是音乐音频的一种强大表示,其中整个频谱被投影到12个区间,代表音乐八度音的12个不同的半音(或色度)
参考链接
语音识别流程 https://segmentfault.com/a/1190000040622380?sort=votes
音频分类 https://blog.csdn.net/wherewegogo/article/details/110369729
语音唤醒关键技术 https://wenku.baidu.com/view/77faf6f26c1aff00bed5b9f3f90f76c660374c40.html