【情感识别学习】情感识别的一种整体实现思路

最新推荐文章于 2024-04-23 23:03:45 发布

顺其灬自然丨

最新推荐文章于 2024-04-23 23:03:45 发布

阅读量2.2k

点赞数 1

分类专栏： Kaldi语音识别文章标签：情感识别实现思路

本文链接：https://blog.csdn.net/m0_38055352/article/details/88928816

版权

Kaldi语音识别专栏收录该内容

9 篇文章 3 订阅

订阅专栏

今天刚在实验室开完组会，老师介绍了一下情感识别的大体步骤原理，为了理清思路，也是为了以后捡起来比较方便，这里做简短的总结记录

一、整体思路

在这里插入图片描述
我简单的用上面这一幅图来对模型的训练过程进行解释，总的思路如下：

首先，把原始的语音数据进行特征提取(通常会采用MFCC)，获取到这段语音数据的特征向量。
然后由于语音数据的收集比较困难，所以这里采用调整UBM的方式产生自适应的GMM，用于之后的操作
在自适应的GMM中，其中Gaussian的均值，也就是μ，是最能反映这类语音数据的参数了，所以将其统一提取出来，作为新的特征向量。
由于整体的目标是对不同的情感进行分类，所以理所当然的采用SVM进行接下来的分类(如果数据量多的话也可采用CNN or DNN)。

二、MFCC

这里关于MFCC，没有什么可以特别说明的，就是语音识别中经常使用的梅尔频率倒谱系数，大家可以自行百度一哈！

三、特征向量和UBM产生自适应GMM

这里其实借用了说话人识别中的思想，我先来大致解释一下什么是UBM。这里的UBM就是Universal Background Model，通用背景模型。

什么是通用背景模型呢？我举一个例子，就比如我们现在都在用的手机语音助手，小米的小爱同学也好、苹果的Siri也好，其实都采用了这项技术。不知道你们有没有发现一个问题，在你刚拿到手机，尝试进行语音识别的时候，这些手机助手和傻子一样，有的时候灵，有的时候不灵。但当你手机用个一年半载，你再尝试用语音的功能的时候，它识别的准确率就比一开始高很多了，这就是UBM自适应的功劳。

关于UBM的机制原理，就拿苹果的Siri为例，它是先用自己采集的语音数据对模型进行训练，产生有一定识别率的模型，但其对于不同的人，肯定识别效果是不一样的。但是为了保证人们拿到手机后，识别率尽可能的高，他们就想了一个办法，对说话人进行自适应，也就是说这个语音识别模型并不是一成不变的，它会根据新输入的数据集，和早已训练好的UBM进行自适应，从而不断的调整，也可以说是学习，以达到针对一个人，识别率越来越好的结果。

介绍完UBM的工作机理，剩下的东西就没有什么了，这里就借用了上述我提到的思想，由于针对不同情感的数据不够多，所以，我就先用中性情感的语料训练出一个有一定识别率的模型，然后再用少数不同情感的语料对其进行自适应调整，从而达到以较少情感语料得到较好训练模型的目的。其中的MAP就是一个自适应的方法而已，是Maxmium A Posteriori algorithm的缩写，有兴趣的可以自己去看一下。

四、提取μ构成超向量

这里没什么技术问题，到达当前阶段，主要的任务，就是需要获取一个用于训练的输入层(这里就借用神经网络的术语了，不要在意这些细节)。

一种思路就是将刚才自适应取得的μ提取出来作为特征向量，当然如果想把方差一起提出来也未尝不可，但是考虑到方差所携带的特征有限，而且特征向量的维度越多，就会对SVM的训练带来更多负担，所以仅提取μ是一个较好的方案。

五、用SVM训练得到超平面

这里我就不用多说了，其实就是一个监督学习的过程，最终寻找到超平面，即可根据这个模型，对已有的语料进行分类了。

六、总结

以上，就是一种情感识别实现的具体思路，当然这其实就是老师之前发的某篇论文，有需要详细了解的可以自行查阅，这里也把链接附上。

GMM supervector based SVM with spectral features for speech emotion recognition

顺其灬自然丨

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【情感识别学习】情感识别的一种整体实现思路

今天刚在实验室开完组会，老师介绍了一下情感识别的大体步骤原理，为了理清思路，也是为了以后捡起来比较方便，这里做简短的总结记录一、整体思路我简单的用上面这一幅图来对模型的训练过程进行解释，总的思路如下：首先，把原始的语音数据进行特征提取(通常会采用MFCC)，获取到这段语音数据的特征向量。然后由于语音数据的收集比较困难，所以这里采用调整UBM的方式产生自适应的GMM，用于之后的操作...
复制链接

扫一扫