马尔科夫模型是基于马尔科夫假设与观测序列的独立性,著名的马尔科夫假设即状态的转移至于前一个状态有关,与将来无关。将该模型用(A,B,Pi)三元组表示,其中A表示状态转移概率矩阵,元素为:P(St|St-1),B表示在观测输出条件Oi下隐含状态序列Si的概率矩阵,元素为:P(Si|Oi);Pi表示初始状态概率P(Si)。
三类问题:(1)已知观测序列(输出符号的概率序列)求取其隐含序列,以语音识别为例,已知句子的语音信号序列,识别出对应的句子。典型算法:Forward_Backward算法,推荐Frederick Jelinek所著的《Statistical Methods for Speech Recognition》.
(2)已知隐含序列,求取其观测序列,以分词为例,已知各词组的词频等参数,给一个句子,求该句子可分词得到的词组序列。典型算法:维比特算法。
(3)根据大量训练样本求该模型参数。典型无监督训练方法:Baum_Welch Algorithm(鲍姆-韦尔奇算法)