统计学习方法之隐马尔可夫模型

最新推荐文章于 2022-01-25 18:52:50 发布

何如千泷

最新推荐文章于 2022-01-25 18:52:50 发布

阅读量258

点赞数

分类专栏：统计学习方法文章标签：概率论机器学习人工智能 hmm

本文链接：https://blog.csdn.net/qq_42735631/article/details/120953730

版权

统计学习方法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

隐马尔可夫模型

1. 基本概念

1.1 定义

隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐马尔科夫链生成的状态序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可看作为一个时刻。

隐马尔可夫模型的形式定义如下：

设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合：
$Q=\{q_1,q_2,...,q_N\}, \quad V=\{v_1,v_2,...,v_M\}$
其中， $N$ 是可能的状态数， $M$ 是可能的观测数。

$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列
$I=\{i_1,i_2,...,i_T\}, \quad O=\{o_1,o_2,..,o_T\}$

$A$ 是状态转移概率矩阵
$A=[a_{ij}]_{N \times N}$
其中，
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$
是在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率

$B$ 是观测概率矩阵
$B=[b_j(k)]_{N \times M}$
其中，
$b_j(k)=P(o_t=v_k|i_t=q_j)$
是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率

$\pi$ 是初始状态概率向量
$\pi=(\pi_i)$
其中，
$\pi_i=P(i_1=q_i)$
是时刻 $t = 1$ 处于状态 $q_i$ 的概率

隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和概念概率矩阵 $B$ 决定。因此，隐马尔可夫模型 $\lambda$ 可以用三元符合表示：
$\lambda=(A,B,\pi)$

注意：隐马尔可夫模型作了两个基本假设：

齐次马尔可夫性假设： 隐马尔科夫链在任意时刻 $t$ 的状态只依赖于前一时刻的状态，与其他时刻的状态和观测无关
$P(i_t|i_{t-1},o_{t-1},...,i_1,o_1)=P(i_t|i_{t-1})$
观测独立性假设： 任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测和状态无关
$P(o_t|i_T,o_T,...,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},...,i_1,o_1)=P(o_t|i_t)$

1.2 三个基本问题

概率计算问题： 给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$
学习问题： 已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。即用EM算法估计参数
预测问题： 已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求对给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。即给定观测序列，求最有可能的状态序列

2. 概率计算算法

2.1 直接计算法

给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。

最直接的方法：通过列举所有可能长度为 $T$ 的状态序列 $I=(i_1,i_2,...,i_T)$ ，求各个状态序列 $I$ 与观测序列 $O=(o_1,o_2,...,o_T)$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$

状态概率 $I=(i_1,i_2,...,i_T)$ 的概率是：
$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$
对固定的状态序列 $I=(i_1,i_2,...,i_T)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率为：
$P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$
$O 和 I$ 同时出现的联合概率为：
$P(O,I|\lambda)=P(O|I,\lambda)P(I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$
对所有可能的状态 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ：
$P(O|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)=\sum_{i_1,i_2,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

由于计算量很大，是 $O(TN^T)$ 阶，故不可行

2.2 前向算法

前向概率： 给定隐马尔可夫模型 $\lambda$ ，定义导时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作
$\alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)$

在这里插入图片描述

可以递推求得前向概率 $\alpha_t(i)$ 及观测序列概率 $P(O|\lambda)$

前向算法：

$输入：隐马尔可夫模型\lambda，观测序列O$

$输出：观测序列概率P(O|\lambda)$

初值：
$\alpha_1(i)=P(o_1,i_1=q_i|\lambda)=P(o_1|i_1=q_i,\lambda)P(i_1=q_i|\lambda)=\pi_ib_i(o_1)$
递推，对 $t = 1, 2, . . ., T - 1$
$\alpha_{t+1}(i)=P(o_1,o_2,...,o_t,o_{t+1},i_{t+1}=q_i|\lambda)=\sum_{j=1}^NP(o_1,o_2,...,o_t,o_{t+1},i_t=q_j,i_{t+1}=q_i|\lambda)\\ =\sum_{j=1}^NP(o_1,o_2,...,o_t,i_t=q_j|\lambda)P(o_{t+1},i_{t+1}=q_i|\lambda,o_1,o_2,...,o_t,i_t=q_j)\\ =\sum_{j=1}^NP(o_1,o_2,...,o_t,i_t=q_j|\lambda)P(o_{t+1}|i_{t+1}=q_i, \lambda)P(i_{t+1}=q_i|\lambda,i_t=q_j) \\ = \sum_{j=1}^N\alpha_t(j)a_{ji}b_i(o_{t+1})$
终止
$P(O|\lambda)=P(o_1,o_2,...,o_T|\lambda)=\sum_{i=1}^NP(o_1,o_2,...,o_T,i_t=q_i|\lambda)=\sum_{i=1}^N\alpha_T(i)$

2.3 后向算法

后向概率： 给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的部分观测序列 $o_{t+1},o_{t+2},...,o_T$ 的概率为后向概率，记作：
$\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda)$

在这里插入图片描述

可以用递推的方法求后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$

后向算法：

$输入：隐马尔可夫模型\lambda，观测序列O$

$输出：观测序列概率P(O|\lambda)$

初值
$\beta_T(i)=1$
递推，对 $t = T - 1, T - 2, . . ., 1$
$\beta=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j)$
终止
$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$

3. 学习算法

3.1 监督学习方法

假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 ${(O_1,I_1),(O_2,I_2),...,(O_S,I_S)\}$ ，那么可以利用极大似然估计法来估计隐马尔可夫模型的参数。

转移概率 $a_{ij}$ 的估计

设样本中时刻 $t$ 处于状态 $i$ 时刻 $t + 1$ 转移到状态 $j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是
$\hat a_{ij}=\frac {A_{ij}} {\sum_{j=1}^NA_{ij}}$
观测概率 $b_j(k)$ 的估计
设样本中状态为 $j$ 并观测为 $k$ 的频数为 $B_{jk}$ ，那么状态为 $j$ 观测为 $k$ 的概率 $b_j(k)$ 的估计是：
$\hat b_j(k)=\frac {B_{jk}}{\sum_{k=1}^MB_{jk}}$
初始状态概率 $\pi_i$ 的估计 $\hat \pi_i$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率

3.2 Baum-Welch算法

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 ${O_1,O_2,...,O_S\}$ 而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda=(A,B,\pi)$ 的参数。

这事实上是一个含有隐变量的概率模型
$P(O|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)$
它的参数学习可以由 $E M$ 算法实现

确定完全数据的对数似然函数

所有观测数据写成 $O=(o_1,o_2,...,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,...,i_T)$ ，完全数据是 $O,I)=(o_1,o_2,...,o_T,i_1,i_2,...,i_T)$ 。完全数据的对数似然函数为 $logP(O,I|\lambda)$
$E M$ 算法的 $E$ 步：求 $Q$ 函数 $Q(\lambda, \bar \lambda)$
$Q(\lambda, \bar \lambda)=\sum_{I}logP(O,I|\lambda)P(I|O,\bar \lambda)\\=\sum_IlogP(O,I|\lambda)\frac {P(O,I|\bar \lambda)}{P(O|\bar \lambda)} \\ =\sum_IlogP(O,I|\lambda)P(O,I|\bar \lambda)$
其中， $\bar \lambda$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可夫模型参数。
$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$
于是 $Q$ 函数可写成
$Q(\lambda, \bar \lambda)=\sum_Ilog\pi_{i_1}P(O,I|\bar \lambda)+\sum_I(\sum_{t=1}^{T-1}loga_{i_ti_{t+1}})P(O,I|\bar \lambda)+\sum_I(\sum_{t=1}^Tlogb_{i_t}(o_t))P(O,I|\bar \lambda)$
$E M$ 算法的 $M$ 步：极大化 $Q$ 函数，求模型参数 $A,B,\pi$
由于要极大化的参数在 $Q$ 函数中单独地出现在3个项中，所以只需对各项分别极大化。
- $Q$ 函数第1项可写成：
  $\sum_Ilog\pi_{i_1}P(O,I|\bar \lambda)=\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar \lambda)$
  注意到 $\pi_i$ 满足约束条件 $\sum_{i=1}^N\pi_i=1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
  $\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar \lambda)+\gamma(\sum_{i+1}^N\pi_i-1)$
  对其求偏导并令结果为0
  $\frac {\partial} {\partial \pi_i}[\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar \lambda)+\gamma(\sum_{i+1}^N\pi_i-1)]=0$
  得：
  $P(O,i_1=i|\bar \lambda)+\gamma\pi_i=0$
  对 $i$ 求和得到 $\gamma$
  $\gamma=-P(O|\bar \lambda)$
  所以：
  $\pi_i=\frac {P(O,i_1=i|\bar \lambda)} {P(O|\bar \lambda)}$
- $Q$ 函数第2项可写成：
  $\sum_I(\sum_{t=1}^{T-1}loga_{i_ti_{t+1}})P(O,I|\bar \lambda)=\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\bar \lambda)$
  注意到约束条件 $\sum_{j=1}^Na_{ij}=1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
  $\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\bar \lambda)+\gamma(\sum_{j=1}^Na_{ij}-1)$
  对其求偏导并令结果为0
  $\frac {\partial} {\partial a_{ij}}[\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\bar \lambda)+\gamma(\sum_{j=1}^Na_{ij}-1)]=0$
  得：
  $\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar \lambda)+\gamma a_{ij}=0$
  对 $j$ 求和得到 $\gamma$
  $\gamma=-\sum_{t=1}^{T-1}P(O,i_t=i|\bar \lambda)$
  所以：
  $a_{ij}=\frac {\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar \lambda)} {\sum_{t=1}^{T-1}P(O,i_t=i|\bar \lambda)}$
- $Q$ 函数第3项可写成：
  $\sum_I(\sum_{t=1}^Tlogb_{i_t}(o_t))P(O,I|\bar \lambda)=\sum_{j=1}^N\sum_{t=1}^Tlogb_j(o_t)P(O,i_t=j|\bar \lambda)$
  同样使用拉格朗日乘子法，约束条件为 $\sum_{k=1}^Mb_j(k)=1$ ，拉格朗日函数如下：（注意，只有在 $o_t=v_k$ 时， $b_j(o_t)$ 对 $b_j(k)$ 得偏导才不为0）
  $\sum_{j=1}^N\sum_{t=1}^Tlogb_j(o_t)P(O,i_t=j|\bar \lambda)+\gamma (\sum_{k=1}^Mb_j(k)-1)$
  对其求偏导并令结果为0
  $\frac {\partial} {\partial b_j(k)}[\sum_{j=1}^N\sum_{t=1}^Tlogb_j(o_t)P(O,i_t=j|\bar \lambda)+\gamma (\sum_{k=1}^Mb_j(k)-1)]=0$
  得：
  $\sum_{t=1}^TP(O,i_t=j|\bar \lambda)I(o_t=v_k)+\gamma b_j(k)=0$
  对 $k$ 求和得到 $\gamma$
  $\gamma = -\sum_{t=1}^TP(O,i_t=j|\bar \lambda)$
  所以：
  $b_j(k)=\frac {\sum_{t=1}^TP(O,i_t=j|\bar \lambda)I(o_t=v_k)} {\sum_{t=1}^TP(O,i_t=j|\bar \lambda)}$

4. 预测算法

4.1 近似算法

思想：在每个时刻 $t$ 选择在该时刻最有可能出现得状态 $i_t^*$ ，从而得到一个状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$ ，将它作为预测结果。

给定隐马尔可夫模型 $\lambda$ 和观测序列 $O$ ，在时刻 $t$ 处于状态 $q_i$ 得概率 $\gamma_t(i)$ 为：
$\gamma_t(i)=P(i_t=q_i|\lambda,O)=\frac {P(i_t=q_i,O|\lambda)} {P(O|\lambda)} = \frac {P(o_1,o_2,...,o_t,i_t=q_i,o_{t+1},...,o_T|\lambda)} {P(O|\lambda)} \\ = \frac {P(o_1,o_2,...,o_t,i_t=q_i|\lambda)P(o_{t+1},...,o_T|\lambda,o_1,o_2,...,o_t,i_t=q_i)}{P(O|\lambda)} \\ = \frac {P(o_1,o_2,...,o_t,i_t=q_i|\lambda)P(o_{t+1},...,o_T|\lambda,i_t=q_i)} {P(O|\lambda)}$
由前向概率和后向概率得定义可知
$\gamma_t(i)=\frac {\alpha_t(i)\beta_t(i)} {P(O|\lambda)}=\frac {\alpha_t(i)\beta_t(i)} {\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$
在每一时刻 $t$ 最有可能得状态 $i_t^*$ 为：
$i_t^*=arg\max_{1 \leq i \leq N}[\gamma_t(i)]$
从而得到状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$

近似算法有点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能由实际不发生的部分，即上述方法得到的状态序列中可能存在转移概率为0的相邻状态

4.2 维特比算法

维特比算法实际是用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径（最优路径）。

最优路径具有这样的特性：如果最优路径在时刻 $t$ 通过节点 $i_t^*$ ，那么这一路径从节点 $i_t^*$ 到终点 $i_T^*$ 的部分路径，对于从 $i_t^*$ 到 $i_T^*$ 的所有可能的部分路径来说，必须是最优的。因为假如不是这样，那么从 $i_t^*$ 到 $i_T^*$ 就有另一条更好的部分路径存在，如果把它和从 $i_1^*$ 到 $i_t^*$ 的部分路径连接起来，就会形成一条比原来路径更优的路径，这是矛盾的。

根据这一原理，我们只需从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i$ 地各条部分路径地最大概率，直至得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率。时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ，最优路径的终结点 $i_T^*$ 也同时得到。之后，为了找出最优路径的各个结点，从终结点 $i_T^*$ 开始，由后向前逐步求得结点 $i_{T-1}^*,...,i_1^*$ ，得到最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。

首先导入两个变量 $\delta 和 \psi$ 。
定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_t)$ 中概率最大值为
$\delta_t(i)=\max_{i_1,i_2,...,i_{t-1}}P(i_t=i,i_{t-1},...,i_1,o_t,...,o_1|\lambda)$
由定义可得到变量 $\delta$ 的递推公式
$\delta_{t+1}(i)=\max_{i_1,i_2,...,i_t}P(i_{t+1}=i,i_t,...,i_1,o_{t+1},...,o_1|\lambda)=\max_{1 \leq j \leq N}[\delta_t(j)a_{ji}]b_i(o_{t+1})$
定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,..,i_{t-1},i_t)$ 中概率最大的路径的第 $t - 1$ 个节点为
$\psi_t(i)=arg\max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}]$

维特比算法：

$\lambda=(A,B,\pi) 和观测O=(o_1,o_2,...,o_T)$

$输出：最优路径I^*=(i_1^*,i_2^*,...,i_T^*)$

初始化
$\delta_1(i)=\pi_ib_i(o_1), \quad i=1,2,...N \\ \psi_1(i)=0, \quad i=1,2,...,N$
递推。对 $t = 2, 3, . . ., T$
$\delta_t(i)=\max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_t), \quad i=1,2,...,N \\ \psi_t(i)=arg\max_{1 \leq j \leq N}[\delta_{t-1}a_{ji}], \quad i=1,2,...,N$
终止
$P^*=\max_{1 \leq i \leq N}\delta_T(i) \\ i_T^*=arg\max_{1 \leq i \leq N}[\delta_T(i)]$
最优路径回溯。对 $t = T - 1, . . ., 1$
$i_t^*=\psi_{t+1}(i_{t+1}^*)$

求得最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

何如千泷

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法之隐马尔可夫模型

隐马尔可夫模型1. 基本概念1.1 定义隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐马尔科夫链生成的状态序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可看作为一个时刻。隐马尔可夫模型的形式定义如下：设QQQ是所有可能的状态的集合，VVV是所有可能的观测的集合：Q={q1,q2,...,qN},V={v1,v2,...,vM}Q=\{q_1
复制链接

扫一扫