HMM绑定三音素决策树聚类

考虑到模型所处的上下文,一个发音会由于上下文音素的不同而产生不同的发音,我们在说话的时候,往往在某些发音还没有充分发出时候,就转入下一个音,也就是连音问题,因此要建立一个上下文相关的HMM。

虽然连续高斯分布可以比较好的描述观测概率,能够比较好的描述语音的变异性,但是由于连续语音中的协同发音现象会严重影响到一个模型的性能。发音器官某个位置受到前面和后面的发音影响,会导致同一个发音在不同的上下文关系中的特征,那么将会使类内方差增大,降低语音识别系统的一个性能。因此需要建立一个不同的上下文环境建立不同的音素模型。

如果一个单音素的模型序列为:
sil g ow s t r ey t sil
则使用的三元音素模型为:
sil sil-g+ow g-ow+s ow-s+t s-t+r t-r+ey r-ey+t ey-t+sil sil
引入三元音素模型将使模型的数量急剧增大,这样会导致每个训练模型的训练数据严重不足,无法得到可靠的参数估计,最终影响系统的识别性能。一般是采用状态捆绑的方法来实现参数共享。基于决策树的状态捆绑方法成为解决三元音素模型训练数据的不同方法之一。、整个过程通过遍历一个二叉决策树来完成。
开始的时候所有的以aw为基元的三元音素模型都位于根节点,然后根据语音学分类的问题判断各个模型应该划分到左子树和右子树,不断重复,直到达到叶子节点位置,处于同一叶子节点的模型当做同一类,并将其状态参数进行捆绑。

基本步骤:
(1)克隆HMM状态
利用单音素训练集抄本,考虑词内上下文的关系,产生初始粗糙的三音素模型,每个三音素的参数直接拷贝的单音素参数。再初始的triphone HMM建立好之后,利用和训练单音素相同的嵌入式训练算法,进行模型训练,达到期望值收敛。

(2)绑定参数
为了达到较好的识别效果,我们需要在模型的复杂度(模型参数的不同级别、参数的数量等等)和利用有限的语音训练数据来平衡模型。通过有限的训练数据去重估模型参数是不现实的。于是采用决策树聚类的 方法对三因素进行绑定。
待分类的数据就是不同的三音素HMM集合,判断问题就是关于上下文的声学-语言学问题。每一个节点都是一个状态集合,并且具有一个产生某个具体观测数据的概率,根据这些问题的回答,状态集合中的状态可以被分到左节点和右节点。这些子节点又会产生一个新的概率,这两个子节点的概率之和会大于父节点的概率。决策树的分裂规则就是使得父节点和子节点的概率值差最大,停止规则是预先设定的阈值。
decision Tree
决策树的根节点,将可能的上下文放在这个根节点上,为了得到某个最佳分裂,使用问题集合中的每一个问题进行一次分裂,并计算分裂之后的概率增加。若是这个概率增加超过了实现的阈值,而且这个节点相联系的训练样本数目超过了某个最小阈值,则最终从问题集合中选择使概率增加最大的问题作为该节点的最终分裂点,分裂之后产生两个子节点,对每个节点重复上述操作。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值