人工智能小白日记语音情感分析探索之3 语音分离及非监督学习相关调研

本文链接：https://blog.csdn.net/kkae8643150/article/details/88815707

人工智能小白日记语音情感分析探索之3 语音分离相关调研

前言
正文内容

前言

在上一篇中，初步实现了语音的情感识别，因为识别度在0.5-0.6这样子，着实不够有说服力，其实根据诸多论文描述，还有达到0.9以上的可能，比如特征融合或是模型优化。这个后面再说，至少知道怎么去处理它。现在有个更加紧要的问题，由于我的任务和多人对话相关，情感识别是做在单人语音的基础上的，所以现在有个任务是要进行语音分离。

查了一下心凉了半截，主要相关的资料相对于情感识别明显少了很多，然后最新的综述表明相关的研究效果不是很好，难度很大。特别是鸡尾酒会问题，一直是研究难题。

另外之前所有的学习都是有标签y的，也就是所谓的监督学习，这次的语音分离是没有标签的，属于非监督学习。当然如果有大量带标注的数据集也可以变为监督学习。

正文内容

1 非监督学习相关

非监督学习的理解可以参考 https://www.cnblogs.com/SrtFrmGNU/p/7160718.html

在这里插入图片描述
也就是大概有三类。

1-1 聚类算法

“聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。划分聚类算法通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。层次聚类算法由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等” （摘自百度百科）

比如常见k-means算法，大概看了下原理，也不复杂。看看最简化的模型，比如对一个二维数据集进行聚类，可以想象每个样本都是二维平面上的一个点，要聚成2类，k-means算法步骤如下：

1）随机取2个种子（2个随机点）
在这里插入图片描述
比如这里红色为样本，绿色为随机出来的种子(随手画的有点丑，勿喷= =！)

2）围绕种子分类，样本距离哪个种子比较近，就划分到哪边，计算平面距离很简单吧，不说了，如果是n维的一样的处理方式。初步划分如下：
在这里插入图片描述
3）计算2个点群的中心位置，将种子位置更新为点群的中心。计算点群中心可以用简单的求所有点的x均值，y均值来算出，也有其他算法，可以搜一下

位置更新后，重复2）3）步骤，重新划分，重新更新种子位置，直到种子位置不变。

缺陷：初始种子的位置对最后聚类的结果影响大，而且对于某些问题聚成多少类是不确定的。

所以有了k-means++算法。相关内容这里不多描述

1-2 HMM隐马尔可夫模型

1-2-1 马尔可夫链

首先，来看看它的基石马尔可夫链，这里参考这篇，易于理解
https://blog.csdn.net/bitcarmanlee/article/details/82819860

简单来说，就像是一个状态机，有有限的几个状态，但是状态转换不是if else这种了，而是概率事件，如此，从前一个状态可以测算到下几种状态的概率分布。
在这里插入图片描述

需要特别注意的是
在这里插入图片描述

1-2-2 HMM

接着进阶到HMM，这次参考的是
https://www.cnblogs.com/skyme/p/4651331.html

里面前面讲到最大熵模型，也是非常经典。后面的HMM的举例说明，应该可以很好的从马尔可夫链过渡到HMM。相当于HMM在马尔可夫链的基础上多了一层隐藏链
在这里插入图片描述
如此，可以通过可见状态来求解下一状态或者隐含状态的概率分布。

1-3 盲信号分离

“盲信号分离也可以称为盲源分离(BSS，Blind Signal/Source Separation)，其含义是在不知道源信号及信号混合参数的情况下，仅根据观测到的混合信号估计源信号。独立分量分析(ICA，Independent Component Analysis)是为了解决盲信号分离问题而逐渐发展起来的一种新技术。盲信号分离大部分都采用独立分量分析的方法，即将接收到的混合信号按照统计独立的原则通过优化算法分解为若干独立分量，这些独立分量作为源信号的一种近似估计。事实上，盲信号分离中要处理的问题在数学上是欠定的，因此结果不可能只有一个 [1] ，即分离结果存在两个不确定性:分离结果排列顺序不确定、分离结果幅度不确定。由于要传送的信息往往包含在信号波形中，因此这两个不确定性并不影响在实际中的应用。” （摘自百度百科）

ps：这个短时间一下子不知道从何入手，为了节省时间先跳过

2 关于语音分离

关于非监督学习已经做了一定了解，从目前来看，聚类是属于最容易实现的方式，考虑用聚类和HMM做语音分离。但是随便拿一个特征来进行聚类就行了吗？貌似不行，它有可能聚成啥样都不确定，有可能根据音高音低，说话频率聚成几类了，这显然是有bug的。为此，特征的选取比较重要，考虑用比较流行的特征提取，特征融合等方案。