隐马尔可夫模型学习笔记（之一，概率计算问题）

最新推荐文章于 2022-03-16 23:27:23 发布

Li Kang

最新推荐文章于 2022-03-16 23:27:23 发布

阅读量2.6k

点赞数 1

分类专栏： machine learning 语音识别文章标签： NLP HMM machine learning 机器学习

本文链接：https://blog.csdn.net/s09094031/article/details/80704104

版权

machine learning 同时被 2 个专栏收录

20 篇文章 7 订阅

订阅专栏

语音识别

4 篇文章 0 订阅

订阅专栏

###隐马尔可夫模型的定义
隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。

隐马尔可夫链随机生成的状态的序列，称为状态序列（state sequence);每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列（observation sequence)。序列的每一个位置又可以看作是一个时刻。

设Q是所有可能的状态的集合，V是所有可能的观测的集合。
$Q = \{q_1,q_2,...q_N\}， V = \{v_1,v_2,...v_M\}$

其中， $N$ 是可能的状态数， $M$ 是可能的观测数。状态 $q$ 是不可见的，观测 $v$ 是可见的。应用到词性标注系统，词就是 $v$ ，词性就是 $q$ 。应用到语音识别系统，语音就是 $v$ ，语素就是 $q$ 。

$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。
$I = \{i_1,i_2,...i_T\}， O = \{o_1,o_2,...o_T\}$

这可以理解为给定了一个词(O)+词性(I)的训练集，于是我们手上有了一个可以用隐马尔可夫模型解决的实际问题。

A为状态转移概率矩阵：
$A = [a_{ij}]_{N*N}$
其中， $a_{ij}= P(i_t+1 = q_j|i_t = q_i), i = 1,2...,N; j = 1,2,...N$
是在时刻 $t$ 处于状态 $q_j$ 的条件下在时刻t+1转移到状态 $q_j$ 的概率。
这实际在表述一个一阶的HMM，所作的假设是每个状态只跟前一个状态有关。

B是观测概率矩阵:
$B = [b_j(k)]_{N*N}$
其中， $b_j(k)= P(o_t = v_k|i_t = q_j), k = 1,2...,M; j = 1,2,...N$ 是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率，也就是所谓的“发射概率”。
这实际上在作另一个假设，观测是由当前时刻的状态决定的，跟其他因素无关，这有点像Moore自动机。

$\pi$ 是初始状态概率向量:
$\pi = (\pi_i)$
其中， $\pi_i= P(i_1 = q_i)， i= 1,2,...N$ 是时刻t=1处于状态 $q_j$ 的概率。

隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，即
$\lambda = (A,B,\pi)$
$A,B,\pi$ 称为隐马尔可夫模型的三要素。

状态转移概率矩阵 $A$ 与初始状态概率向量 $π$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

从定义可知，隐马尔可夫模型作了两个基本假设：

(1)齐次马尔可夫性假设，即假设隐藏的马尔可夫链在任意时刻t的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关。
$P(i_t|i_t-1,o_t-1,...i_1,o_1 ) = P(i_t|i_t-1), t = 1,2,...T$
从上式左右两边的复杂程度来看，齐次马尔可夫性假设简化了许多计算。

(2)观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。
$P(o_t|i_T,o_T,i_T-1,o_T-1,...i_t,o_t,...i_1,o_1 ) = P(i_t|o_t)$

隐马尔可夫模型有3类基本问题：

(1)概率计算
给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...o_T)$ ,计算在观测序列O出现的概率 $(O|\lambda)$ 。
(2)学习问题
己知观测序列 $O = (o_1,o_2,...o_T)$ ,估计模型参数 $\lambda = (A,B,\pi)$ ，使得在该模型下观测序列概率 $(O|\lambda)$ 最大。即用极大似然估计的方法估计参数。
(3)预测问题
也称为解码问题(decoding)。已知模型 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...o_T)$ ，求对给定观测序列条件概率 $(O|\lambda)$ 最大的状态序列 $I = (i_1,i_2,...i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。

概率计算方法

给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...o_T)$ ,，求 $(O|\lambda)$

直接计算法

直接计算法的思路是枚举所有长度 $T$ 的状态序列，然后计算该状态序列与观测序列的联合概率，对所有的枚举项求和即可。在状态种类为N的情况下，一共有 $N^T$ 种排列，每种排列计算联合概率的计算量为 $T$ ，总的复杂度为 $O(T*N^T)$ 。

直接计算法只是一种理论方法，可以用来解释整个计算过程，而不会被用于计算。因为只需做简单的改进，就能很大程度上地减少运算量。这些改进，只是用到了合并同类项的思想。直接计算法在状态种类为N的情况下，一共有 $N^T$ 种排列。这 $N^T$ 种排列并不都需要从0开始计算，而是可以利用已经计算的结果，减少运算量。这就有了前向算法和后向算法。

假设长度为3的序列，一共有2种状态，分别为A，B。序列AAA和AAB，用直接计算法，这里需要4次乘法。而如果利用AA这个已有状态的结果，再分别计算AAA和AAB，则只有3次乘法。这就是前向和后向算法的基础。

前向算法

给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 为止的观测序列为 $o_1,o_2...o_t$ ，且状态为 $q_t$ 的概率为前向概率，记作
$\alpha_t(i) = P(o_1,o_2...,o_t, i_t = q_t | \lambda)$

(1) 初始状态， $t = 0$ 时刻
$\alpha_1(i) = \pi_ib_i(o_1), i = 1,2,...N$
初始状态有N种可能，所以这个概率有N个。
前向概率的定义限定了两个条件，一是到当前为止的观测序列，另一个是当前的状态。所以初值的计算也有两项，一项是初始状态概率，另一项是发射到当前观测的概率。

(2) $t = 2, 3, . . . T - 1$ 时刻
$\alpha_{t+1}(i) = [\sum_{j=1}^N \alpha_t(j) a_{ji}] *b_i(o_{t+1}), i = 1,2,...N$
整个计算过程分两部分，第一部分是到当前状态转移概率，第二部分是到观测序列的发射概率。

$\alpha_t(j)$ 表示t时刻的概率，一共有 $N$ 项。 $j$ 表示t时刻的状态，而 $i$ 表示 $t + 1$ 时刻的状态，所以 $j = 1, 2, . . . N$ ， $i = 1, 2, . . . N$ 。那么从状态 $j$ 到状态 $i$ ，需要计算 $N^2$ 次。如果这个状态序列有 $T$ 时刻，则复杂度为 $O(TN^2)$ ，远小于直接计算法的 $O(TN^T)$ 。

(3)最终状态 $t = T$ 时刻
$p(O|\lambda) = \sum_{i=1}^N\alpha_T(i)$
从 $t = T - 1$ 到 $t = T$ ，一共有 $N$ 种状态可以到达目标状态，需要求和

参考代码如下。 $N$ 表示状态数， $T$ 是时间数， $A$ 是转移矩阵， $B$ 是发射矩阵， $F$ 对应 $\alpha$ 。

def _forward(self, obs_seq):
    N = self.A.shape[0]
    T = len(obs_seq)
 
    F = np.zeros((N,T))
    F[:,0] = self.pi * self.B[:, obs_seq[0]]
 
    for t in range(1, T):
        for n in range(N):
            F[n,t] = np.dot(F[:,t-1], (self.A[:,n])) * self.B[n, obs_seq[t]]
 
    return F

后向算法

给定隐马尔可夫模型 $\lambda$ ，定义时刻 $t$ 的状态为 $q_t$ ，且从时刻 $t + 1$ 到时刻 $T$ 为止的观测序列为 $o_{t+1},o_{t+2}...o_T$ 的概率为后向概率，记作
$\beta_t(i) = P(o_{t+1},o_{t+2}...,o_T | i_t = q_t , \lambda)$

(1) 初始状态， $t$ = $T$ 时刻
$\beta_1(i) = 1, i = 1,2,...N$
因为从 $t = T + 1$ 时刻到 $t = T$ 时刻的概率并不存在，默认为1.

(2) $t = T - 1, T - 2 . . . 2, 1$ 时刻
$\beta_t(i) = \sum_{j=1} ^N \beta_{t+1}(j) * b_j(O_{t+1}) * a_{ji}, i = 1,2,...N$

(3) 最终状态， $t = 0$ 时刻
$p(O|\lambda) = \sum_{i = 1}^N \beta_1(i) * b_i(O_1) * a_{ji}$
在 $t$ = 1时间点上有 $N$ 种后向概率都能输出从 $1$ 到 $T$ 的观测序列，乘以对应的初始概率，再乘以输出 $O 1$ 的概率后，求和得到最终结果

参考代码如下。 $N$ 表示状态数， $T$ 是时间数， $A$ 是转移矩阵， $B$ 是发射矩阵， $X$ 对应 $\beta$ 。注意这里求和方式与前向方法的区别。前向算法里面发射概率是当前层的下标 $i$ ，后向算法里发射概率是后一层的下标 $j$ 。前向算法求和符号不包括发射概率，而后项算法的求和概率包括了发射概率。

def _backward(self, obs_seq):
    N = self.A.shape[0]
    T = len(obs_seq)
 
    X = np.zeros((N,T))
    X[:,-1:] = 1
 
    for t in reversed(range(T-1)):
        for n in range(N):
            X[n,t] = np.sum(X[:,t+1] * self.A[n,:] * self.B[:, obs_seq[t+1]])
 
    return X