WFST加权有限状态机

最新推荐文章于 2023-10-12 15:30:54 发布

lbaihao

最新推荐文章于 2023-10-12 15:30:54 发布

阅读量2.3k

点赞数 3

分类专栏： kaldi

kaldi 专栏收录该内容

13 篇文章 3 订阅

订阅专栏

WFST在语音识别中的应用，要从Mohri的《Weighted Finite-State Transducers in Speech Recognition》这篇论文开始说起。首先看下面简单的WFST图，它是一个有向图，状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相同，当然在多数情况下它们是不相同的，在语音识别中，输入可能是发声的声韵母，输出是一个个汉字或词语。

WFST的基本操作

WFST是基于半环代数理论的，详细的半环理论可以看上面Mohri的论文或者找其它资料学习。简单的一个半环代数结构定义为

，它包含元素集合K，两个基本操作和两个基本单元。半环必须满足以下定理：

在语音识别中经常使用的有Log半环和热带半环：

⊕log is defined by: x ⊕log y = −log(e−x + e−y).

合并操作

合并操作用于将两个WFST合并成，合并可以用于存在多个WFST时，将它们合并到一个WFST，用于语音识别中。如下，将A和B

组合操作

组合操作用于合并不同层次的WFST，用于将前一个WFST的输出符号同后一个WFST的输入符号做合并，生成由前一个WFST的输入符号到后一个WFST输出符号的状态机。假设WFST A中有一条转移弧，输入x，输出y，权重是a；WFST B中有一条转移弧，输入是y，输出是z，权重是b，那么A和B的组合后，就会生成一条输入是x，输出是z，权重为ab。下图为对a和b做组合操作

确定化操作

确定化操作用于去除WFST的冗余，对于WFST的每一个状态，它的每一个状态对于同一个输入符号，只有一个转移弧。确定化的加权有限状态器的优势在于它的非冗余性，对于确定化的加权有限状态器，一个给定的输入符号序列最多只有一条路径与其对应，这样可以降低搜索算法的时间和空间复杂度。下图为对a做确定化操作，得到b