内容来源:语音情感识别研究综述
一、情感描述模型
1.离散标签
高兴、悲伤、痛苦等,描述比较粗糙、单一
2.连续维度
比较抽象,难以保证质量
常用维度
效价维:从快乐到不快乐的连续过程
唤醒为:从困倦到兴奋的连续过程
支配维:从顺从到影响环境的连续过程
期望维:说话人对情感出现的准备性度量
强度维:说话人偏离冷静的程度
二、常见数据库
分类
常见离散情感数据库
常见维度情感数据库
情感标注
好的标注往往能提高数据的质量,进而提高系统的性能。但人工标注存在诸多问题,如人对情绪判断的主观性、标注时的时间延迟。需要借助一些工具、算法来完成统一的标注,现在已经有一些方法,如情感标注工具箱MuSe-Toolbox、半监督自动编码器结合少量的有标记数据和未标记数据等,但还没有统一的标准。
三、情感特征
不仅有深度特征,融合特征可能会有更好的效果?
四、深度识别方法
用于SER任务的代表性深度学习技术有CNN、RNN、胶囊网络(CapsNet)、自编码器、Transformer等。SER最 最近的研究更多的在于对各深度学习模型该技能和整合上。
1.基于CNN
2.基于RNN
3.基于CapsNet
4.基于AE
5.基于Transformer
6.混合模型
以上表格内容均不为最新统计。
五、问题
1.跨库SER面临困难,目前研究较多的解决方法迁移学习
2.没有通用的情感描述模型,没有进一步从脑科学、认知科学中得到启发
3.缺乏规模与质量兼备的通用数据库
4.缺乏对语音情感数据隐私保护的研究