HMM绑定三音素决策树聚类

最新推荐文章于 2024-03-30 21:23:12 发布

null_ba

最新推荐文章于 2024-03-30 21:23:12 发布

阅读量1.9k

点赞数 1

文章标签：决策树

本文探讨了在语音识别中，如何处理上下文相关的发音变化，介绍了三元音素模型的构建及其面临的挑战，包括模型数量剧增和训练数据不足等问题。文章详细解释了状态捆绑方法，特别是基于决策树的状态捆绑技术，以实现参数共享，提高模型训练效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

考虑到模型所处的上下文，一个发音会由于上下文音素的不同而产生不同的发音，我们在说话的时候，往往在某些发音还没有充分发出时候，就转入下一个音，也就是连音问题，因此要建立一个上下文相关的HMM。

虽然连续高斯分布可以比较好的描述观测概率，能够比较好的描述语音的变异性，但是由于连续语音中的协同发音现象会严重影响到一个模型的性能。发音器官某个位置受到前面和后面的发音影响，会导致同一个发音在不同的上下文关系中的特征，那么将会使类内方差增大，降低语音识别系统的一个性能。因此需要建立一个不同的上下文环境建立不同的音素模型。

如果一个单音素的模型序列为:
sil g ow s t r ey t sil
则使用的三元音素模型为：
sil sil-g+ow g-ow+s ow-s+t s-t+r t-r+ey r-ey+t ey-t+sil sil
引入三元音素模型将使模型的数量急剧增大，这样会导致每个训练模型的训练数据严重不足，无法得到可靠的参数估计，最终影响系统的识别性能。一般是采用状态捆绑的方法来实现参数共享。基于决策树的状态捆绑方法成为解决三元音素模型训练数据的不同方法之一。、整个过程通过遍历一个二叉决策树来完成。
开始的时候所有的以aw为基元的三元音素模型都位于根节点，然后根据语音学分类的问题判断各个模型应该划分到左子树和右子树，不断重复，直到达到叶子节点位置，处于同一叶子节点的模型当做同一类，并将其状态参数进行捆绑。

基本步骤：
(1)克隆HMM状态
利用单音素训练集抄本，考虑词内上下文的关系，产生初始粗糙的三音素模型，每个三音素的参数直接拷贝的单音素参数。再初始的triphone HMM建立好之后，利用和训练单音素相同的嵌入式训练算法，进行模型训练，达到期望值收敛。

（2）绑定参数
为了达到较好的识别效果，我们需要在模型的复杂度（模型参数的不同级别、参数的数量等等）和利用有限的语音训练数据来平衡模型。通过有限的训练数据去重估模型参数是不现实的。于是采用决策树聚类的方法对三因素进行绑定。
待分类的数据就是不同的三音素HMM集合，判断问题就是关于上下文的声学-语言学问题。每一个节点都是一个状态集合，并且具有一个产生某个具体观测数据的概率，根据这些问题的回答，状态集合中的状态可以被分到左节点和右节点。这些子节点又会产生一个新的概率，这两个子节点的概率之和会大于父节点的概率。决策树的分裂规则就是使得父节点和子节点的概率值差最大，停止规则是预先设定的阈值。
decision Tree
决策树的根节点，将可能的上下文放在这个根节点上，为了得到某个最佳分裂，使用问题集合中的每一个问题进行一次分裂，并计算分裂之后的概率增加。若是这个概率增加超过了实现的阈值，而且这个节点相联系的训练样本数目超过了某个最小阈值，则最终从问题集合中选择使概率增加最大的问题作为该节点的最终分裂点，分裂之后产生两个子节点，对每个节点重复上述操作。