语音情感特征提取及其降维方法综述1
语音传递的信息可以分为两大类:语义信息和声学信息。关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。
所以我们来看一下语音有哪些关键声学特征。
文章目录
语音情感特征分类
主要分为三大类
-
韵律学特征(超音段特征/超语言学特征)
包括时长相关特征/基频相关特征/能量相关特征等
-
音质特征
-
基于谱的相关性分析特征
是声道形状变化和发声运动之间相关性的体现,目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、Mel频率倒谱系数。
语音情感相关的特征通常由以下这些构成:
此外,由于不同民族不同语种的情况下情感表达的差异性,以及个体之间说话特征的差异性,还可以把语音情感特征分为个性化/非个性化两类。
个性化语音情感特征:
个性化语言情感特征是一些直接反映数值的指标,因此人与人之间差异较大,携带了大量个人情感信息,不具有通性。研究较多,实际应用比较困难。
非