HMM的维特比算法的一个实际例子
标签(空格分隔): 自然语言处理
用一个分词的HMM的例子做个解释
任务:
将“我来到苏州”分词
理想结果
【“我”,“来到”,“苏州”】
定义参数
要定义的参数主要有:状态参数、结果参数、初始化参数、转移概率、发射概率
-
状态参数:这里就是每个字符的状态,我们采用简单的“BES“标记,如果一个字符作为一个词的开头则为B,如例子中的”来“,”苏“;如果一个字符作为一个词的结尾则为E,如例子中的”到“,”州“;如果一个字符作为一个单独词则为S,如例子中的”我“。所以状态参数为【”B“,“E”,“S”】
-
结果参数
-
初始化参数、就是在分词一开始的字符的状态参数:很明显不可能为E,因为E前边一定有B,所以我们可以统计海量语料中的第一个字符是作为单独词和词语的概率,用统计方法即可。在此,我们设计一个虚拟值:{”B“:0.6,“S”:0.4},也就是第一个字作为B的概率是0.6,第一个字作为单独词的概率是0.4。
-
转移参数:就是上一个状态推导出下一个状态的概率,比如:已知上一个状态是”E“,则下一个字是”E“的概率是0.6,下一个状态是”S“的概率是0.4.所以我们设定转移参数是&#x