一:LLDs特征和HSFs特征
(1)首先区分一下frame和utterance,frame就是一帧语音。utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本。utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号。
(2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征。
(3)HSFs(high level statistics functions)是在LLDs的基础上做一些统计而得到的特征,比如均值,最大值等等。HSFs是对utterance上的多帧语音做统计,所以是用来表示一个utterance的特征。
(4)后面讲的一些特征集,是由一些专家设计的一些特征,包括了LLDs和HSFs。
二:GeMAPS特征集
(1)GeMAPS特征集总共62个特征,这62个都是HSF特征,是由18个LLD特征计算得到。下面先介绍18个LLD特征,然后介绍62个HSF特征。这里只简单介绍每个特征的概念,不涉及具体计算细节。
(2)18个LLD特征包括6个频率相关特征,3个能量/振幅相关特征,9个谱特征。
(3)基音F0的概念:先理解一个常用的概念,