【情感识别学习】情感识别的一种整体实现思路

今天刚在实验室开完组会,老师介绍了一下情感识别的大体步骤原理,为了理清思路,也是为了以后捡起来比较方便,这里做简短的总结记录

一、整体思路

在这里插入图片描述
我简单的用上面这一幅图来对模型的训练过程进行解释,总的思路如下:

  • 首先,把原始的语音数据进行特征提取(通常会采用MFCC),获取到这段语音数据的特征向量。
  • 然后由于语音数据的收集比较困难,所以这里采用调整UBM的方式产生自适应的GMM,用于之后的操作
  • 在自适应的GMM中,其中Gaussian的均值,也就是μ,是最能反映这类语音数据的参数了,所以将其统一提取出来,作为新的特征向量。
  • 由于整体的目标是对不同的情感进行分类,所以理所当然的采用SVM进行接下来的分类(如果数据量多的话也可采用CNN or DNN)。

二、MFCC

这里关于MFCC,没有什么可以特别说明的,就是语音识别中经常使用的梅尔频率倒谱系数,大家可以自行百度一哈!

三、特征向量和UBM产生自适应GMM

这里其实借用了说话人识别中的思想,我先来大致解释一下什么是UBM。这里的UBM就是Universal Background Model,通用背景模型。

什么是通用背景模型呢?我举一个例子,就比如我们现在都在用的手机语音助手,小米的小爱同学也好、苹果的Siri也好,其实都采用了这项技术。不知道你们有没有发现一个问题,在你刚拿到手机,尝试进行语音识别的时候,这些手机助手和傻子一样,有的时候灵,有的时候不灵。但当你手机用个一年半载,你再尝试用语音的功能的时候,它识别的准确率就比一开始高很多了,这就是UBM自适应的功劳。

关于UBM的机制原理,就拿苹果的Siri为例,它是先用自己采集的语音数据对模型进行训练,产生有一定识别率的模型,但其对于不同的人,肯定识别效果是不一样的。但是为了保证人们拿到手机后,识别率尽可能的高,他们就想了一个办法,对说话人进行自适应,也就是说这个语音识别模型并不是一成不变的,它会根据新输入的数据集,和早已训练好的UBM进行自适应,从而不断的调整,也可以说是学习,以达到针对一个人,识别率越来越好的结果。

介绍完UBM的工作机理,剩下的东西就没有什么了,这里就借用了上述我提到的思想,由于针对不同情感的数据不够多,所以,我就先用中性情感的语料训练出一个有一定识别率的模型,然后再用少数不同情感的语料对其进行自适应调整,从而达到以较少情感语料得到较好训练模型的目的。其中的MAP就是一个自适应的方法而已,是Maxmium A Posteriori algorithm的缩写,有兴趣的可以自己去看一下。

四、提取μ构成超向量

这里没什么技术问题,到达当前阶段,主要的任务,就是需要获取一个用于训练的输入层(这里就借用神经网络的术语了,不要在意这些细节)。

一种思路就是将刚才自适应取得的μ提取出来作为特征向量,当然如果想把方差一起提出来也未尝不可,但是考虑到方差所携带的特征有限,而且特征向量的维度越多,就会对SVM的训练带来更多负担,所以仅提取μ是一个较好的方案。

五、用SVM训练得到超平面

这里我就不用多说了, 其实就是一个监督学习的过程,最终寻找到超平面,即可根据这个模型,对已有的语料进行分类了。

六、总结

以上,就是一种情感识别实现的具体思路,当然这其实就是老师之前发的某篇论文,有需要详细了解的可以自行查阅,这里也把链接附上。

GMM supervector based SVM with spectral features for speech emotion recognition

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值