隐马尔科夫模型(HMM)
模型介绍
HMM模型是由一个“五元组”组成:
- StatusSet: 状态值集合
- ObservedSet: 观察值集合
- TransProbMatrix: 转移概率矩阵
- EmitProbMatrix: 发射概率矩阵
- InitStatus: 初始状态分布
将HMM应用在分词上,要解决的问题是:参数(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下,求解状态值序列。解决这个问题的最有名的方法是viterbi算法。
参数介绍
- StatusSet,状态值集合为(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分别代表每个状态代表的是该字在词语中的位置,B代表该字是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词。
- ObservedSet,观察值集合就是所有汉字,甚至包括标点符号所组成的集合。
- TransProbMatrix,状态转移概率矩阵的含义就是从状态X转移到状态Y的概率,是一个4×4的矩阵,即{B,E,M,S}×{B,E,M,S}。
- EmitProbMatrix,发射概率矩阵的每个元素都是一个条件概率,代表P(Observed[i]|Status[j])
- InitStatus,初始状态概率分布表示句子的第一个字属于{B,E,M,S}这四种状态的概率。
Viterbi算法
Viterbi算法的核心思想就是动态规划实现最短路径,按照Michael Collins教的,核心思想是:
Define a dynamic programming table π(k,u,v),
π(k,u,v) = maximum probability of a tag sequence ending in tags u,v at position k.
For any k ∈ {1…n}: π(k,u,v) = max ( π(k-1,w,u) × q(v|w,u) × e(xk|v) )
完整的Viterbi算法网上有很多资料可以查看,本文主要关注代码的实现。
实验
代码1:模型训练
生成三个文件:
- prob_start.py 为初始状态概率
- prob_trans.py 为状态转移概率
- prob_emit.py 为发射概率
# -*- coding: utf-8 -*-
# 二元隐马尔科夫模型(Bigram HMMs)
# 'trainCorpus.txt_utf8'为人民日报已经人工分词的预料,29万多条句子
import sys
#state_M = 4
#word_N = 0
A_dic = {}
B_dic = {}
Count_dic = {}
Pi_dic = {}
word_set = set()
state_list = ['B','M','E','S']
line_num = -1
INPUT_DATA = "trainCorpus.txt_utf8"
PROB_START = "trainHMM\prob_start.py" #初始状态概率
PROB_EMIT = "trainHMM\prob_emit.py" #发射概率
PROB_TRANS = "trainHMM\prob_trans.py" #转移概率