语音情感识别研究现状
情感是什么
情感是什么:按照当前心理学研究表示为情绪,或者是感觉的体现。这些都是抽象的虚拟的无法作为具体的表现,是一种充满主观性质的内容。
语音情感识别是什么
语音情感识别是将语音作为识别情感的依据,因为语音当中包含很多语音情感的表现,类似于语速:代表着说话的快慢,重口音,以及音高基频等韵律相关的特征,当然也有mel-倒谱系数这样的同样可以作为判断情感的识别因素,所以语音情感识别能够将语音当中包含的信息转换成对应情绪的特点。
为什么要研究语音情感识别
现实生活当中,有很多的场景是其他的方法不可触及的,比如说呼叫中心以及baojing中心,肯定不会有视频通话这种,提取到说话人的面部表情的信息,所以是只能用语音情感识别来作为识别工具,作为这么重要的解决现实问题的依据表现出了研究语音情感识别的重要性,同样是多模态,情感识别也有很多多模态的研究,不过个人觉得需要先从当前的基础做好,解决1然后去解决2才是正确的步骤。
语音情感识别方法
语音情感识别目前是分为两个大模块,第一种是离散型的内容,为具体表现标记为:开心、伤心、中性、愤怒等;第二种是维度连续的情感分类内容,其中代表性的为PAD模型,利用Arousal-Valence方式*
-
离散情感识别方法
- 传统机器学习ANN、KNN、SVM、DT等
- 当前主流GRU、CNN、LSTM、GAN等
-
离散情感识别方法
- 逻辑回归等
-
主要的数据集介绍
该图片来自于dataset
语音情感识别未来趋势
目前的语音情感识别研究还是比较靠后不如其他的语音识别以及NLP发展的迅猛,但是作为未来人机交互的重要的依据,其本身是非常值得研究的,不得不承认,情感识别是需要多个模态的特征综合来识别,不过还是得强调首先对语音情感识别进行研究,才能够将整个研究向前推进。