【NLP】隐马尔可夫模型三个基本问题相关算法实现

最新推荐文章于 2024-07-15 17:08:02 发布

Day-yong

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量2.4k

点赞数 5

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/Daycym/article/details/89225911

版权

NLP 专栏收录该内容

14 篇文章 12 订阅

订阅专栏

前言

隐马尔可夫模型详解，本篇详细介绍了隐马尔可夫模型的相关理论知识，为了进一步的理解它，本篇将通过具体的计算例子，通过代码实现解决三个基本问题的算法，前向-后向算法、Baum-Welch算法、Viterbi算法。

概率计算问题：前向-后向算法

给定模型 $λ = (A, B, π)$ 和观测序列 $Q=\{q_1,q_2,...,q_T\}$ ，计算模型 $λ$ 下观测到序列Q出现的概率 $P (Q ∣ λ)$
学习问题：Baum-Welch算法(状态未知)

已知观测序列 $Q=\{q_1,q_2,...,q_T\}$ ，估计模型 $λ = (A, B, π)$ 的参数，使得在该模型下观测序列 $P (Q ∣ λ)$ 最大。
预测问题：Viterbi算法

给定模型 $λ = (A, B, π)$ 和观测序列 $Q=\{q_1,q_2,...,q_T\}$ ，求给定观测序列条件概率 $P (I ∣ Q ， λ)$ 最大的状态序列 $I$

理论部分内容可参考隐马尔可夫模型详解，本篇不再重复叙述。

本篇代码可见：Github

一、案例描述

假设有三个盒子，编号为 $1, 2, 3$ ；每个盒子都装有黑白两种颜色的小球，球的比例如下：

编号	白球	黑球
1	4	6
2	8	2
3	5	5

按照下列规则的方式进行有放回的抽取小球，得到球颜色的观测序列：

按照 $π$ 的概率选择一个盒子，从盒子中随机抽取出一个小球，记录颜色后，放回盒子中；
按照某种条件概率选择新的盒子，重复该操作；
最终得到观测序列：“白黑白白黑”

该问题中的变量定义：

状态集合： $S=\{盒子1，盒子2，盒子3\}$
观测集合： $O=\{白，黑\}$
状态序列和观测序列的长度 $T = 5$
初始概率分布 $π$

$\pi = (0.2,0.5,0.3)^T$

状态转移概率矩阵 $A$

$=\left[ \begin{matrix} 0.5 & 0.4&0.1\\ 0.2 & 0.2&0.6\\ 0.2 & 0.5&0.3 \end{matrix}\right]$

观测概率矩阵 $B$

$=\left[ \begin{matrix} 0.4 & 0.6\\ 0.8 & 0.2\\ 0.5 & 0.5 \end{matrix}\right]$

在给定参数 $π 、 A 、 B$ 的时候，得到观测序列 $Y=\{白,黑,白,白,黑\}$ 的概率是多少?

二、概率计算问题

2.1 前向算法

前向算法描述如下：

输入：隐马尔可夫模型 $\lambda$ ，观测序列 $Y$

输出：观测序列概率 $P(Y|\lambda)$

（1）初值
$\alpha_1(i) = \pi_ib_i(y_1)，i = 1,2,..,N$
（2）递推 $\quad$ 对 $t = 1, 2, . . ., T - 1$
$\alpha_{t+1}(i) = \Big[\sum_{j=1}^N \alpha_t(j)a_{ij}\Big]b_i(y_{t+1})，i = 1,2,...,N$
（3）终止
$p(Y|\lambda) = \sum_{i=1}^N \alpha_T(i)$

手动计算：

（1）初值

$\alpha_1(1)=\pi_1b_1(y_1)=0.2 \times 0.4 = 0.08$
$\alpha_1(2)=\pi_2b_2(y_1)=0.5 \times 0.8 = 0.40$
$\alpha_1(2)=\pi_ 3b_3(y_1)=0.3 \times 0.5 = 0.15$

（2）递推

$\alpha_2(1)=\Big(\sum_{j=1}^3\alpha_1(j)a_{j1}\Big)b_1(y_2)=\Big(0.08\times0.5+0.4\times0.2+0.15\times0.2\Big)\times0.6=0.09\\ \alpha_2(2)=\Big(\sum_{j=1}^3\alpha_1(j)a_{j2}\Big)b_2(y_2)=\Big(0.08\times0.4+0.4\times0.2+0.15\times0.5\Big)\times0.2=0.0374\\ \alpha_2(3)=\Big(\sum_{j=1}^3\alpha_1(j)a_{j3}\Big)b_3(y_2)=\Big(0.08\times0.1+0.4\times0.6+0.15\times0.3\Big)\times0.5=0.1465$

$\alpha_3(1)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j1}\Big)b_1(y_3)=\Big(0.09\times0.5+0.0374\times0.2+0.1465\times0.2\Big)\times0.4=0.032712\\ \alpha_3(2)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j2}\Big)b_2(y_3)=\Big(0.09\times0.4+0.0374\times0.2+0.1465\times0.5\Big)\times0.8=0.093384\\ \alpha_3(3)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j3}\Big)b_3(y_3)=\Big(0.09\times0.1+0.0374\times0.6+0.1465\times0.3\Big)\times0.5=0.037695$

$\alpha_4(1)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j1}\Big)b_1(y_4)=\Big(0.032712\times0.5+0.093384\times0.2+0.037695\times0.2\Big)\times0.4=0.01702872\\ \alpha_4(2)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j2}\Big)b_2(y_4)=\Big(0.032712\times0.4+0.093384\times0.2+0.037695\times0.5\Big)\times0.8=0.04048728\\ \alpha_4(3)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j3}\Big)b_3(y_4)=\Big(0.032712\times0.1+0.093384\times0.6+0.037695\times0.3\Big)\times0.5=0.03530505$

$\alpha_5(1)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j1}\Big)b_1(y_5)=\Big(0.01702872\times0.5+0.04048728\times0.2+0.03530505\times0.2\Big)\times0.6=0.0142036956\\ \alpha_5(2)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j2}\Big)b_2(y_5)=\Big(0.01702872\times0.4+0.04048728\times0.2+0.03530505\times0.5\Big)\times0.2=0.0065122938\\ \alpha_5(3)=\Big(\sum_{j=1}^3\alpha_2(j)a_{j3}\Big)b_3(y_5)=\Big(0.01702872\times0.1+0.04048728\times0.6+0.03530505\times0.3\Big)\times0.5=0.0182933775$

（3）终止

$p(Y|\lambda) = \sum_{i=1}^3 \alpha_5(i) =0.0142036956+0.0065122938+0.0182933775=0.0390093669$

程序运行结果：

在这里插入图片描述

上图中， $\alpha$ 矩阵中每行表示 $\alpha_T(i)$
通过比较我们手算的和程序的运行结果，我们发现他们的结果是一样的（忽略精度问题）
程序中有注释，具体内容可查看源代码

代码可见：hmm01/forward_probability.py

2.2 后向算法

后向算法描述如下：

输入：隐马尔可夫模型 $\lambda$ ，观测序列 $Y$

输出：观测序列概率 $P(Y|\lambda)$

（1）初值
$\beta_T(i) = 1，i = 1,2,..,N$
（2）递推 $\quad$ 对 $t = T - 1, T - 2, . . ., 1$
$\beta_t(i) = \sum_{j=1}^N a_{ij}b_j(y_{t+1})\beta_{t+1}(j)，i = 1,2,...,N$
（3）终止
$p(Y|\lambda) = \sum_{i=1}^N \pi_ib_i(y_1)\beta_1(i)$

手动计算：

（1）初值

$\beta_5(1)=1\\ \beta_5(2)=1\\ \beta_5(3)=1$

（2）递推

$\beta_4(1)=\sum_{j=1}^3a_{1j}b_j(y_5)\beta_5(j)=0.5\times0.6\times 1+0.4\times0.2\times1 +0.1\times0.5\times1=0.43\\ \beta_4(2)=\sum_{j=1}^3a_{2j}b_j(y_5)\beta_5(j)=0.2\times0.6\times 1+0.2\times0.2\times1 +0.6\times0.5\times1=0.46\\ \beta_4(3)=\sum_{j=1}^3a_{3j}b_j(y_5)\beta_5(j)=0.2\times0.6\times 1+0.5\times0.2\times1 +0.3\times0.5\times1=0.37$

$\beta_3(1)=\sum_{j=1}^3a_{1j}b_j(y_4)\beta_4(j)=0.5\times0.4\times 0.43+0.4\times0.8\times0.46 +0.1\times0.5\times0.37=0.2517\\ \beta_3(2)=\sum_{j=1}^3a_{2j}b_j(y_4)\beta_4(j)=0.2\times0.4\times 0.43+0.2\times0.8\times0.46 +0.6\times0.5\times0.37=0.219\\ \beta_3(3)=\sum_{j=1}^3a_{3j}b_j(y_4)\beta_4(j)=0.2\times0.4\times 0.43+0.5\times0.8\times0.46 +0.3\times0.5\times0.37=0.2739$

$\beta_2(1)=\sum_{j=1}^3a_{1j}b_j(y_3)\beta_3(j)=0.5\times0.4\times 0.2517+0.4\times0.8\times0.219+0.1\times0.5\times0.2739=0.134115\\ \beta_2(2)=\sum_{j=1}^3a_{2j}b_j(y_3)\beta_3(j)=0.2\times0.4\times 0.2517+0.2\times0.8\times0.219+0.6\times0.5\times0.2739=0.137346\\ \beta_2(3)=\sum_{j=1}^3a_{3j}b_j(y_3)\beta_3(j)=0.2\times0.4\times 0.2517+0.5\times0.8\times0.219+0.3\times0.5\times0.2739=0.148821$

$\beta_1(1)=\sum_{j=1}^3a_{1j}b_j(y_2)\beta_2(j)=0.5\times0.6\times 0.134115+0.4\times0.2\times0.137346+0.1\times0.5\times0.148821=0.05866323\\ \beta_1(2)=\sum_{j=1}^3a_{2j}b_j(y_2)\beta_2(j)=0.2\times0.6\times 0.134115+0.2\times0.2\times0.137346 +0.6\times0.5\times0.148821=0.06623394\\ \beta_1(3)=\sum_{j=1}^3a_{3j}b_j(y_2)\beta_2(j)=0.2\times0.6\times 0.134115+0.5\times0.2\times0.137346+0.3\times0.5\times0.148821=0.05215155$

（3）终止

$p(Y|\lambda) = \sum_{i=1}^3 \pi_ib_i(y_1)\beta_1(i)=0.2\times0.4\times0.05866323+0.5\times0.8\times0.06623394+0.3\times0.5\times0.05215155=0.0390093669$

程序运行结果：

在这里插入图片描述

得到的结果和前向算法一样，具体内容可参考源代码注释

代码可见：hmm01/backward_probability.py

三、学习问题

Baum-Welch算法描述如下：

输入：观测数据 $Y = (y_1,y_2,...,y_T)$

输出：隐马尔可夫模型参数

（1）初始化

对 $n = 0$ ，选取 $a_{ij}^{(0)},{b_j(k)}^{(0)},\pi_i^{(0)}$ ，得到模型 $\lambda^{(0)} = (A^{(0)},B^{(0)},\pi^{(0)})$

（2）递推，对 $n = 1, 2, . . .,$
$a_{ij}^{(n+1)} = \frac{\sum_{t=1}^{T-1} P(Y,i_t=i,i_{t+1} = j|\overline{\lambda})}{\sum_{t=1}^{T-1}P(Y,i_t=i,|\overline{\lambda})}$

$b_j(k)^{(n+1)} = \frac{\sum_{t=1}^T P(Y,i_t = j|\overline{\lambda})I(y_t=v_k)}{\sum_{t=1}^T P(Y,i_t = j|\overline{\lambda})}$

$\pi_i^{(n+1)}=\frac{P(Y,i_1 = i|\overline{\lambda})}{\sum_{i=1}^N P(Y,i_1 = i|\overline{\lambda})}$

右端各值按模型 $\lambda^{(n)} = (A^{(n)},B^{(n)},\pi^{(n)})$ 计算

（3）终止。得到模型参数 $\lambda^{(n+1)} = (A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$

利用前向和后向概率对Baum-Welch算法中的表达式进行修改：

给定模型 $\lambda$ 和观测序列 $Y$ ，在时刻 $t$ 处于状态 $q_i$ 的概率，记为：

$\gamma_t(i) = P(i_t=q_i|Y,\lambda)=\frac{P(i_t=q_i,Y|\lambda)}{P(Y|\lambda)}=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$

其中：
$\alpha_t(i)\beta_t(i) = P(i_t=q_i,Y|\lambda)$

def calc_gamma(alpha, beta, gamma):
    """
    根据alphe和beta的值计算gamma值
    最终结果保存在gamma矩阵中
    """
    T = len(alpha)
    n_range = range(len(alpha[0]))
    tmp = [0 for i in n_range]
    for t in range(T):
        # 累加t时刻对应的所有状态值的前向概率和后向概率，从而计算分母
        for i in n_range:
            tmp[i] = alpha[t][i] * beta[t][i]
        sum_alpha_beta_of_t = np.sum(tmp)

        # 更新gamma值
        for i in n_range:
            gamma[t][i] = tmp[i] / sum_alpha_beta_of_t

给定模型 $\lambda$ 和观测序列 $Y$ ，在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t + 1$ 处于 $q_j$ 的概率，记为：

$\xi_t(i,j) = P(i_t=q_i,i_{t+1}=q_j|Y,\lambda)=\frac{P(i_t=q_i,i_{t+1}=q_j,Y|\lambda)}{P(Y|\lambda)}$
$=\frac{P(i_t=q_i,i_{t+1}=q_j,Y|\lambda)}{\sum_{i=1}^N\sum_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,Y|\lambda)}$
$=\frac{\alpha_t(i)a_{ij}b_j(y_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(y_{t+1})\beta_{t+1}(j)}$

其中：
$P(i_t=q_i,i_{t+1}=q_j,Y|\lambda)=\alpha_t(i)a_{ij}b_j(y_{t+1})\beta_{t+1}(j)$
以上， $\alpha_t(i),\beta_t(i)$ 分别表示前向和后向概率

def calc_ksi(alpha, beta, A, B, Q, ksi, fetch_index_by_obs_seq=None):
    """
    计算时刻t的时候状态为i，时刻t+1的时候状态为j的联合概率ksi
    alpha：对应的前向概率值
    beta：对应的后向概率值
    A：状态转移矩阵
    B: 状态和观测值之间的转移矩阵
    Q: 观测值列表
    ksi：待求解的ksi矩阵
    fetch_index_by_obs_seq: 根据序列获取对应索引值的函数，可以为空
    NOTE:
        1. ord函数的含义是将一个单个的字符转换为数字, eg: ord('a') = 97; ord('中')=20013；底层其实是将字符转换为ASCII码；
        2. 最终会直接更新参数中的ksi矩阵
    """
    # 0. 初始化
    # 初始化序列转换为索引的方法
    fetch_index_by_obs_seq_f = fetch_index_by_obs_seq
    if fetch_index_by_obs_seq_f is None:
        fetch_index_by_obs_seq_f = lambda obs, obs_index: ord(obs[obs_index])

    # 初始化相关的参数值: n、T
    T = len(alpha)
    n = len(A)

    # 1. 开始迭代更新
    n_range = range(n)
    tmp = np.zeros((n, n))

    for t in range(T - 1):
        # 1. 计算t时刻状态为i，t+1时刻状态为j的概率值
        for i in n_range:
            for j in n_range:
                tmp[i][j] = alpha[t][i] * A[i][j] * B[j][fetch_index_by_obs_seq_f(Q, t + 1)] * beta[t + 1][j]

        # 2. 计算t时候的联合概率和
        sum_pro_of_t = np.sum(tmp)

        # 2. 计算时刻t时候的联合概率ksi
        for i in n_range:
            for j in n_range:
                ksi[t][i][j] = tmp[i][j] / sum_pro_of_t

修改算法中第二步：递推

$a_{ij}^{(n+1)}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$
${b_j(k)}^{(n+1)}=\frac{\sum_{t=1,y_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)}$
$\pi_t^{(n+1)}=\gamma_t(i)$

代码中，我们首先计算了 $\gamma，\xi$ 的值，然后使用该值代入Baum-Welch算法中。

计算 $\gamma$ 的运行结果：
在这里插入图片描述
可见代码：hmm01/single_state_probability_of_gamma.py

计算 $\xi$ 的运行结果：

在这里插入图片描述
可见代码：hmm01/continuous_state_probability_of_ksi.py

Baum-Welch算法实现：

在这里插入图片描述
代码可见：hmm01/baum_welch.py

四、预测问题

维特比算法描述如下：

输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,...,o_T)$ ；

输出：最优路径 $I^* = (i_1^*,i_2^*,...,i_T^*)$ ；

（1）初始化

$\delta_1(i)=\pi_ib_i(o_1),i=1,2,...,N$
$\psi_1(i) = 0, i=1,2,..,N$

（2）递推，对 $t = 2, 3, . . ., T$

$\delta_t(i)=\max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_t), i=1,2,...,N$
$\psi_t(i) = arg \max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}], i=1,2,...,N$

（3）终止

$P^* = \max_{1\leq i \leq N}\delta_T(i)$
$i_T^* = arg \max_{1 \leq i \leq N}[\delta_T(i)]$

（4）最优路径回溯，对 $t = T - 1, T - 2, . . ., 1$

$i_t^*=\psi_{t+1}(i_{t+1}^*)$

求得最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

实例计算可参考：隐马尔可夫模型详解中对应部分的实例。而程序中的 $A,B,\pi$ 是我们设置的，实际应用中 $A,B,\pi$ 是根据学习算法得到的最优模型进行预测

维特比算法运行结果：

在这里插入图片描述

代码可见：hmm01/viterbi.py

五、改进版本

在计算相关概率的时候，如果我们的观测序列比较长，程序前向概率结果如下（只截取了后面一部分）：

在这里插入图片描述

图中我们可以看出，随着观测序列增加，前向概率在逐渐减少趋向于0，因此很有可能造成溢出，我们需要对此进行一定的改进。

我们只需要对之前的求得的值进行 log_sum_exp 操作即可

def log_sum_exp(a):
    """
    可以参考numpy中的log sum exp的API
    scipy.misc.logsumexp
    :param a:
    :return:
    """
    a = np.asarray(a)
    a_max = max(a)
    tmp = 0
    for k in a:
        tmp += math.exp(k - a_max)
    return a_max + math.log(tmp)