一种利用情感感知谱特征进行语音情感识别的方法 |
技术领域 |
本发明涉及语音情感识别技术领域,尤其涉及情感感知谱特征的语音情感识别方法。 |
背景技术 |
语音是人们交流中最重要的方式,语音信号不仅蕴含了丰富的语义信息,还携带了丰富的情感状态。分析语音中的情感特征,并采用机器学习的方法识别出语音情感状态,可以在很多场景中得到应用,如:虚拟现实中,通过识别人类情感,提高人机交互的自然度;汽车驾驶中,通过识别驾驶员精神状态提高驾驶安全;医学中,通过识别患者精神状态提供诊断依据;自动客服中,通过识别客户情绪提高客服质量。近年来,随着人工智能的迅猛发展,虚拟现实的应用需求,语音情感识别已成为人机交互领域的研究热点。 |
现有语音情感识别技术领域主要分类特征提取和情感分类。本发明关注语音情感特征提取,并使用支持向量机分类器(SVM)进行语音情感特征识别。语音情感特征主要分为韵律学特征、声音质量特征、谱特征等。其中谱特征以梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)使用最为广泛。这类谱特征能较好地描述语音信号的频率包络特征,因此具有一定的情感状态区分度。但情感信息相比语音内容表现更为细腻,现有MFCC和LPC等传统谱特征难以表达更加接近的情感状态,如:悲伤、害怕。本发明根据语音心理声学模型原理,从情感感知角度出发,通过感知子带划分精确地提取情感状态的谱特征,最后采用SVM分类器进行情感识别。 |
本发明的方法在SVM分类器下,提供一种利用情感感知谱特征进行情感识别的方法,该方法因可以精确描述情感感知状态,相比传统MFCC特征,识别率提高10.4%以上。 |
发明内容 |
本发明的目的是提供一种情感感知谱特征用于语音情感识别的方法,使得在SVM分类器下提高情感识别率。 |
为达到上述目的,本发明提供一种利用情感感知谱特征进行语音情感识别的方法,包括以下步骤: |
步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后 |