语音识别中的决策树

本文探讨了在语音识别中,为了解决单音素模型的局限性,引入三音素模型并面临训练数据不足的问题。通过使用决策树进行模型的状态绑定,可以有效地聚类相似模型状态并共享参数,降低模型数量。文章详细介绍了决策树的建立过程,并指出kaldi中可能通过自动生成问题集来实现这一过程。
摘要由CSDN通过智能技术生成

1. 为什么需要决策树
我们在使用HTK进行语音识别模型训练的过程中,首先进行的是单音素、单个高斯的模型训练。抛开单个高斯不说,单音素模型本身有很大缺点:没有考虑到本音素前后音素的发音对本音素的影响。比如,同样是一个音素iy,如果它前面的音素分别是h和p,那么iy这个音素在这两种情况下的发音会有所不同,那么模型参数也就会受到其影响,此时,如果用同一个模型来描述音素iy,那么就会不合理。
为了解决这个问题,采用三音素(triphones)模型,典型的三音素模型如下 [t-iy+n],这表示iy音素前一个音素是t,后一个因素是n,模型[t-iy+n] 用来表示这种情况下的音素iy模型,那么此时,这个三音素模型和 [t-iy+ng] 不再表示同一个模型了,虽然他们都是表示音素 iy的模型,但是因为中心音素(此处为iy)的上下文音素不同了,所以此时它们其实是两个不同的模型。
如此以来,模型的数量会剧增。单因素模型时,假如我们只有40个音素需要建模,每个音素有3个HMM状态。但是在三因素模型中,最坏的情况是需要给40×40×40 个模型进行建模,当然这其中有很多是不可能或者不会在训练数据中出现的。但是相对于单音素模型来说,这个数目已经增加了很多倍,这就导致了一个问题:训练数据不足!那么如何解决因为模型数量增加而导致训练数据不足的问题呢?HTK使用了模型状态绑定的方法。所谓的模型状态绑定,就是让一些具有某些相似特征的模型的一些状态来共享一组模型参数,这样就能够有效的减少模型参数的数量从而解决训练数据不足的问题。
2. 如何使用决策树进行模型的状态绑定

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值