隐马尔可夫模型

最新推荐文章于 2024-09-16 12:18:48 发布

tt12121221

最新推荐文章于 2024-09-16 12:18:48 发布

阅读量141

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/tonglingwen/article/details/107285065

版权

隐马尔可夫模型

隐马尔科夫模型的基本概念
概率计算算法
学习算法
- Baum-Welch算法
预测算法
- 近似算法
- 维特比算法

是用于 标注问题的统计学习模型，描述由 隐藏的马尔可夫链随机生成的观测序列的过程，属于 生成模型。马尔科夫模型中主要讨论三个问题：即 概率计算算法、 学习算法以及 预测算法。

隐马尔科夫模型的基本概念

隐马尔科夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。隐马尔科夫模型的形式定义如下：
设 $Q$ 是所有可能的状态集合， $V$ 是所有可能的观测集合。 $Q=\lbrace q_1,q_2,...,q_N \rbrace,\quad V=\lbrace v_1,v_2,...,v_N \rbrace$ 其中 $N$ 是可能的状态数， $M$ 是可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。 $I=(i_1,i_2,...,i_T),\quad O=(o_1,o_2,...,o_T)$ A是状态转移概率矩阵： $A=[a_{ij}]_{N \times N}$ 其中 $a_{ij}=P(i_{t+1}=q_j|i_t=q_i),\quad i=1,2,...,N;j=1,2,...,N$ 是在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率。
B是观测概率矩阵： $B=[b_j(k)]_{N \times M}$ 其中， $b_j(k)=P(o_t=v_k|i_t=q_j),\quad k=1,2,...,M;j=1,2,...,N$ 是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$\pi$ 是初始状态矩阵向量： $\pi=(\pi_i)$ 其中， $\pi_i=P(i_1=q_i),\quad i=1,2,...,N$ 是时刻 $t = 1$ 处于状态 $q_i$ 的概率。隐马尔科夫模型由 $A,B,\pi$ 确定因此隐马尔科夫模型 $\lambda$ 可以写为 $\lambda=(A,B,\pi)$ $A,B,\pi$ 称为隐马尔科夫模型的三个要素。
从上面定义可知隐马尔科夫模型做了两个基本假设：

齐次马尔科夫性假设，即假设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。即 $P(i_t|i_{t-1},o_{t-1},...,i_1,o_1)=P(i_t|i_{t-1}),\quad t=1,2,...,T$
观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测及状态无关。 $P(o_t|i_T,o_T,i_{T-1},o_{T-1},...,i_{t+1},o_{t+1},i_t,o_t,...,i_1,o_1)=P(o_t|i_t)$

隐马尔科夫模型的理解:

由 $\pi$ 决定了选择使 $P(i_1=q_i)$ 最大的那个状态即 $q_i$ ，作为状态序列中的第一个取值。
已知第一个状态序列的取值 $q_i$ ,选取使 $a_{ij}=P(i_2=q_j|i_1=q_i)$ 最大的那个状态即 $q_j$ ，作为状态序列中的第二个取值；选取使 $P(o_1=v_k|i_1=q_i)$ 最大的那个状态即 $v_k$ ，作为第一个状态序列所对应的观测状态的取值。
重复以上过程。

隐马尔科夫模型有以下3个基本问题：

概率计算问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ,计算模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。
学习问题。已知观测序列 $O=(o_1,o_2,...,o_T)$ ,估计模型 $\lambda=(A,B,\pi)$ 参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。即用极大似然估计的方法估计参数。
预测问题。已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ,求对给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。

概率计算算法

直接计算法

这种方法是概念上可行但计算上不可行的算法。通过列举所有可能的长度为 $T$ 的状态序列 $I=(i_1,i_2,...,i_T)$ ,求各个状态序列 $I$ 与观测序列 $O=(o_1,o_2,...,o_T)$ 的联合概率 $P(O,I|\lambda)$ ,然后对所有可能的状态序列求和，得到 $P(O|\lambda)$ 。即 $P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$ 其中 $P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$ $P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_3)...b_{i_T}(o_T)$ 因此 $P(O|\lambda)=\sum_{i_1,i_2,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$ 但是利用上式计算量很大是 $O(TN^T)$ 阶的,这种算法不可行。实际中使用前向-后向算法。

前向算法

给定隐马尔可夫模型 $KaTeX parse error: Undefined control sequence: \lamda at position 1: \̲l̲a̲m̲d̲a̲$ ,定义到时刻 $t$ 之前的观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率记作 $a_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)$ 可以递推地求得前向概率 $a_t(i)$ 及观测序列 $P(O|\lambda)$ 。算法如下
输入：隐马尔可夫模型 $\lambda$ ,观测序列 $O$
输出：观测序列概率 $P(O|\lambda)$

初值 $a_1(i)=\pi_ib_i(o_1),\quad i=1,2,...,N$
递推对 $t = 1, 2, . . ., T - 1$ $a_{t+1}(i)=[\sum_{j=1}^Na_t(j)a_{ji}]b_i(o_{t+1}),\quad i=1,2,...,N$
终止 $P(O|\lambda)=\sum_{i=1}^Na_T(i)$
用前向算法的计算量为 $O(N^2T)$ 阶的

后向算法

给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的观测序列为 $o_{t+1},o_{t+2},...,o_T$ 的概率为后向概率，记作 $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda)$ 可以用递推的方法求得后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
算法如下：
输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ;
输出：观测序列概率 $P(O|\lambda)$ 。

$\beta_T(i)=1,i=1,2,...,N$
对 $t = T - 1, T - 2, . . ., 1$ $\beta_t(i)=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j),\quad i=1,2,...,N$
$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_t(i)$

一些概率与期望的计算

给定模型 $\lambda$ 和观测 $O$ ,在时刻 $t$ 处于状态 $q_i$ 的概率。记 $r_t(i)=P(i_t=q_i|O,\lambda)$ 可以通过前向后向概率计算。事实上， $r_t(i)=P(i_t=q_i|O,\lambda)=\frac{P(i_t=q_i,O|\lambda)}{P(O|\lambda)}$ 由前向概率 $a_t(i)$ 和后向概率 $\beta_t(i)$ 定义可知： $P(i_t=q_i,O|\lambda)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)P(o_{t+1},o_{t+2},...,o_T,i_t=q_i|\lambda)=a_t(i)\beta_t(i)$ 于是得到： $r_t(i)=\frac{a_t(i)\beta_t(i)}{P(O|\lambda)}=\frac{a_t(i)\beta_t(i)}{\sum_{j=1}^Na_t(j)\beta_t(j)}$
给定模型 $\lambda$ 和观测 $O$ ,在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率。记 $\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_i|O,\lambda)$ 可以通过前向后向概率计算： $\xi_t(i,j)=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{\sum_{i=1}^N\sum_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,O|\lambda)}$ 而 $P(i_t=q_i,i_{t+1}=q_j,O|\lambda)=a_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$ 所以 $\xi_t(i,j)=\frac{a_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^Na_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}$
将 $r_t(i)$ 和 $\xi_t(i,j)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值：
(1).在观测 $O$ 下状态 $i$ 出现的期望值 $\sum_{t=1}^Tr_t(i)$
(2).在观测 $O$ 下由状态 $i$ 转移的期望值 $\sum_{t=1}^{T-1}r_t(i)$
(3).在观测 $O$ 下由状态 $i$ 转移到状态 $j$ 二点期望值 $\sum_{t=1}^{T-1}\xi_t(i,j)$

学习算法

Baum-Welch算法

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\lbrace O_1,O_2,...,O_S \rbrace$ (只有已知观测数据)没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda=(A,B,\pi)$ 的参数。那么隐马尔可夫模型是一个含有隐变量的概率模型 $P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$ 这是一个含有隐变量的参数估计的过程，其可以由EM算法实现。

确定完全数据的对数似然函数所有观测数据写成 $O=(o_1,o_2,...,o_T)$ ,所有隐数据写成 $I=(i_1,i_2,...,i_T)$ ,完全数据是 $O,I)=(o_1,o_2,...,o_T,i_1,i_2,...,i_T)$ 。完全数据的对数似然函数是 $logP(O,I|\lambda)$ 。
EM算法的E步：求 $Q$ 函数 $(\lambda,\overline{\lambda})$ $Q(\lambda,\overline{\lambda})=\sum_IlogP(O,I|\lambda)P(O,I|\overline{\lambda})$ 其中， $\overline{\lambda}$ 是隐马尔可夫模型参数的当前估计值, $\lambda$ 是要极大化的隐马尔可夫模型参数。 $P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)···a_{i_{T-1}i_T}b_{i_T}(o_T)$
EM算法的M步：极大化 $Q$ 函数 $Q(\lambda,\overline{\lambda})$ 求模型参数，通过写出 $Q$ 函数的拉格朗日函数，并对位置参数求偏导使其为0，就可以求得参数。

预测算法

近似算法

近似算法的想法是，在每个时刻 $t$ 选择在该时刻最可能出现的状态 $i_t^*$ ，从而得到一个状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$ ,将它作为预测的结果。
给定隐马尔可夫模型 $\lambda$ 和观测序列 $O$ ,在时刻 $t$ 处于状态 $q_i$ 的概率 $r_t(i)$ 是 $r_t(i)=\frac{a_t(i)\beta_t(i)}{P(O|\lambda)}=\frac{a_t(i)\beta_t(i)}{\sum_{j=1}^Na_t(j)\beta_t(j)}$ 在每一个时刻 $t$ 最有可能的状态 $i_t^*$ 是 $i_t^*=\argmax_{1 \leq i \leq N}[r_t(i)],\quad t=1,2,...,T$ 从而得到状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分。

维特比算法

维特比算法实际是用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径。这时一条路径对应着一个状态序列。
依据动态规划原理，我们只需从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i$ 的各条部分路径的最大概率直至得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率。时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ,最优路径的终结点 $i_T^*$ 也同时得到。
算法如下：
输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,...,o_T)$
输出：最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

$\delta_1(i)=\pi_ib_i(o_1),\quad i=1,2,...,N$ $\Psi_i(i)=0,\quad i=1,2,...,N$
递推。对 $t = 2, 3, . . ., T$ $\delta_t(i)=\max_{1\leq j \leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_t),\quad i=1,2,...,N$ $\Psi_t(i)=\argmax_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}],\quad i=1,2,...,N$
终止 $P^*=\max_{1 \leq i \leq N}\delta_T(i)$ $i_T^*=\argmax_{1 \leq i \leq N}[\delta_T(i)]$ 求得最优路径 $I^*=(i_1^*,i_2^*,...,,i_T^*)$ 。