语音情绪识别初认识

内容来源:语音情感识别研究综述

一、情感描述模型

1.离散标签

高兴、悲伤、痛苦等,描述比较粗糙、单一

2.连续维度

比较抽象,难以保证质量

常用维度

效价维:从快乐到不快乐的连续过程

唤醒为:从困倦到兴奋的连续过程

支配维:从顺从到影响环境的连续过程

期望维:说话人对情感出现的准备性度量

强度维:说话人偏离冷静的程度

二、常见数据库

分类

常见离散情感数据库

常见维度情感数据库

情感标注

好的标注往往能提高数据的质量,进而提高系统的性能。但人工标注存在诸多问题,如人对情绪判断的主观性、标注时的时间延迟。需要借助一些工具、算法来完成统一的标注,现在已经有一些方法,如情感标注工具箱MuSe-Toolbox、半监督自动编码器结合少量的有标记数据和未标记数据等,但还没有统一的标准。

三、情感特征

不仅有深度特征,融合特征可能会有更好的效果?

四、深度识别方法

用于SER任务的代表性深度学习技术有CNN、RNN、胶囊网络(CapsNet)、自编码器、Transformer等。SER最 最近的研究更多的在于对各深度学习模型该技能和整合上。

1.基于CNN

2.基于RNN

3.基于CapsNet

4.基于AE

5.基于Transformer

6.混合模型

以上表格内容均不为最新统计。

五、问题

1.跨库SER面临困难,目前研究较多的解决方法迁移学习

2.没有通用的情感描述模型,没有进一步从脑科学、认知科学中得到启发

3.缺乏规模与质量兼备的通用数据库

4.缺乏对语音情感数据隐私保护的研究

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值