一、隐马尔可夫模型HMM
1 隐马尔可夫模型 Hidden Markov Model(HMM) 的假设,对于两个时序序列联合分部 p(x,y),x序列,外界可见,称为观测序列,y序列外,外界不可见,称为状态序列。
以 更高地举起邓小平理论伟大旗帜 为例,
更高地举起邓小平理论伟大旗帜,就是观测序列。每个字对应的状态,组成的序列,就是状态序列。以SBME 序列标注 为例,S 代表single,单独的意思。B是begin开始一个分词的开始。M是middle在分词的中间部分。E是end结尾代表分词的结束。
比如 邓小平理论。 邓 是这个分词的第一个字,所以用b表示。 小平理 这三个字是分词的中间部分,所以用m表示。论 是这个分词的最后一个字所用一表示。
更 高 地 举起 邓小平理论 伟大 旗帜
O O O BE BMMME BE BE
2 隐马尔可夫模型对应的三个矩阵
以 从 四个盒子, 取 白球和红球为例。
⑴初始状态概率向量
就是我从这四个盒子的哪个盒子中开始取球,他们的概率不同,但是他们的概率加和应该是一。比如我从第一个盒子中取球的概率是0.2,从第二个盒子中 取球的概率是0.2,从第三个和第四个盒子中 ,取球的概率都是0.3。那么这个初始状态概率向量就可以表示为
π=[0.2,0.2,0.3,0.3]
⑵ 状态转移矩阵
比如我已经从第一个盒子中取出一个球,那么接下来,我可以从这四个盒子中的任何一个盒子中取球,那么比如 我 从一第一个盒子到第一个盒子取球的概率,我从第一个盒子到第二个盒子也可以到第三个盒子也可以到第四个盒子,他们对应不同的概率,但是每一个盒子到这四个盒子的概率加和应该是1。这里的状态转移矩阵中的概率,是我们人为写上去的,方便理解,后续可以学习得到。
上面这个矩阵的第一行,表示 上一次是从一号盒子中取球,这次从一号盒子中取球的概率为0,这次从二号盒子中取球的概率为1,这次从三号盒子中取消的概率为0,从4号盒子中取球的概率为0。
⑶观测概率矩阵
就是 我从每一个盒子取到红球和白球的概率组成的矩阵。
B矩阵的第一行表示,从第一个盒子中取到红球的概率是0.5,取到白球的概率也是0.5。