最近在看语音的情感识别相关文档,对其中的一些点有了初步的认识,记录下来与大家分享。
1、单从语料的音调就能识别出说话人的喜怒哀乐时,先进行语音信号的标注,提取情感的特征参数,包括基于声学的特征参数:LPCC(线性预测倒谱系数);基于人的听觉机理:MFCC、共振峰参数,还有基于韵律特征的基频和能量方面的特征,另外还可以从说话持续时长、振幅参数来考虑语音所表达出来的情感;
2、需要从语料的说话内容才能判断说话人的正负情绪时,这涉及到语义的理解问题。对测试的语料库的每个句子提取关键词,比如说话人不带强烈情感的说:话费扣的比**多,这是向移动客服表达一种不满,应为负面情绪,把话费、多连在一块儿,做成一个模板,当说话人再有此类语句,且音调正常时,表达的应是负面情绪;
对于语音情感的识别方法有;
矢量分割型马氏距离判别法、主元分析法、神经网络方法、隐马尔科夫模型(HMM)、混合高斯模型(GMM)
另外,情感是一个模糊的概念,对于情感的判别可以采用模糊熵的概念,设有模糊集A={x1,x2,x3,...xn},其对应的隶属度分别为u1,u2,...un,模糊熵的值为S为ui与ln ui乘积的求和的负值。