1.韵律特征
- 基于基音频率的特征,包含Jitter,基音频率的包络,基音频率的线性预测系数。
- 共振峰特征,包含一阶共振峰,二阶共振峰,以及共振峰的带宽等。
- 基于能量的特征,包含 shimmer,4 阶Legendre 参数等。
- 时间特征,包含说话部分和不说话部分的比值,最长说话的时间等。
- 发音清晰程度的特征。
- 声音级别:信号幅度,能量被证明与声音级别有很大的关系。
- 短语,音素,单词以及这些特征的边界。
- 时间结构。
2.谱特征
- 短时连贯性(Short Time Coherence,SMC)
- 过零幅度峰值(Zeros Crossing Peak Amplitude,ZCPA)
- 线性预测倒谱系数(Linear Predictor Cepstral Coefficients,LPCC)
- LPC MFCC LSP PLP ,RASTA 感知线性预测倒谱系数(RASTA-PLP)
- 最小二乘改进Yule-Walker 方程(Least Squares Modified Yule-Walker Equations,LSMYWE)
- 单边自相关线性预测系数(One-sided Autocorrelation Linear PredictorCoefficients,OSALPC)
- 单边自相关线性预测倒谱系数(One-side Autocorrelation Linear Predictor Cepstral Coefficients,OSALPCC)
3.其他特征
- 根据发音系统提出的基于Teager 能量算子(Teager Energy Operator,TEO)的语音特征。
- 根据语音属于一种非平稳的信号原理,提出的基于经验模态分解(Empirical Mode Decomposition,EMD)的语音特征。
- 根据语音信号的混沌程度在缓和的情绪中比较小,在激烈的情绪中比较大的原理,基于分形维(Fractal Dimension)的语音特征。
- 另外基于深度学习的语音特征在语音信号处理中的作用越来越大。