《统计学习方法》（第十章）——隐马尔科夫模型

最新推荐文章于 2021-10-25 15:57:25 发布

mkopvec

最新推荐文章于 2021-10-25 15:57:25 发布

阅读量301

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mkopvec/article/details/90523808

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

隐马尔科夫模型的基本概念

隐马尔科夫模型的定义

关于时间序列得模型，描述由一个隐藏得马尔可夫链随机生成不可观测得状态随机序列，再由状态生成一个观测从而产生观测随机序列得过程。隐藏得马尔可夫链随机生成得状态序列，称为状态序列；每个状态生成一个观测，而由此产生的观测随机序列，称为观测序列。序列的每个位置又可以看作是一个时刻
$Q=\{q_1,q_2,..q_N\},V=\{v_1,v_2,..,v_M\}$
其中 $Q$ 为所有可能的状态集合， $V$ 是所有的观测集合
$I=\{i_1,i_2,...,i_N\},O=\{o_1,o_2,...,o_T\}$
$I$ 是状态序列， $O$ 是观测序列
转移矩阵
$A=[a_{ij}]_{N \times N}$
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$
观测矩阵
$B=[b_j(k)]_{N \times M}$
$b_j(k)=P(o_t=v_k|i_t=q_j)$
初始状态概率向量
$\pi=(\pi_i),\ \ \ \ \ \pi_i=P(i_1=q_i)$
因此隐马尔科夫模型
$\lambda=(A,B,\pi)$ 表示
又定义知作了两个假设
$P(i_t|i_{t-1},o_{t-1},...,i_1,o_1)=P(i_t|i_{t-1})$
$P(o_t|i_T,o_T,....,i_1,o_1)=P(o_t|i_t)$

观测序列的生成

输入：隐马尔可夫模型 $\lambda=(A,B,\pi),$ 观测序列长度 $T$
输出：观测序列 $O=(o_1,o_2,...,o_T)$
$(1)$ 按照初始状态分布 $\pi$ 产生状态 $i_1$
$(2)$ 令 $t = 1$
$(3)$ 按照状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o_t$
$(4)$ 按照状态 $i_t$ 的状态转移概率分布产生 $i_{t+1}$
$(5)$ $t = t + 1$ 如果 $\lt T$ 则 $(3)$ 否则终止

隐马尔科夫模型的3个基本问题

概率计算问题
已知 $\lambda=(A,B,\pi),O=(o_1,o_2,..,o_T)$ 计算 $P(O|\lambda)$
学习问题
已知 $O=(o_1,o_2,..,o_T)$ ,估计 $\lambda$ 使得 $P(O|\lambda)$ 最大
预测问题
已知 $\lambda,O=(o_1,o_2,..,o_T)$ 求 $P (I ∣ O)$

概率计算算法

直接计算法

$P(I|\lambda)=\pi_{i_t}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$
$P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$
$P(O,I|\lambda)=P(O|I,\lambda)P(I|\lambda)$
$=\pi_{i_1}b_{i_1}(o_1)\pi_{i_2}b_{i_2}(o_2)...\pi_{i_T}b_{i_T}(o_T)$
$P(O|\lambda)=\sum\limits_{I}P(O|I,\lambda)P(I|\lambda)$
但是计算复杂度太高

前向计算法

定义 $a_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)$
算法
输入：隐马尔可夫模型 $\lambda$ ,观测序列 $O$
输出：观测序列的概率 $P(O|\lambda)$
$(1)$ 初值
$a_1(i)=\pi_ib_i(o_1)$
$(2)$ 递推
$a_{t+1}(i)=[\sum\limits_{j=1}^Na_t(j)a_{ji}]b_i(o_{t+1})$
$(3)$ 终止
$P(O|\lambda)=\sum\limits_{i=1}^Na_T(i)$

后向计算法

定义 $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|t=q_i,\lambda)$
算法
输入：隐马尔可夫模型 $\lambda$ ,观测序列 $O$
输出：观测序列的概率 $P(O|\lambda)$
$(1)$ 初值
$\beta_T(i)=1$
$(2)$ 递推
$\beta_t(i)=\sum\limits_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j)$
$(3)$ 终止
$P(O|\lambda)=\sum\limits_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$

一些概率与期望值的计算

$1 .$ 给定模型 $\lambda$ 和观测 $O$ ,在时刻 $t$ 处于状态 $q_i$ 的概率
$\gamma_t(i)=P(i_t=q_i|O,\lambda)$
$=\frac{P(i_t=q_i,O|\lambda)}{P(O|\lambda)}$
又
$a_t(i)\beta_t(i)=P(i_t=q_i,O|\lambda)$
最终
$\gamma_t(i)=\frac{a_t(i)\beta_t(i)}{\sum\limits_{j=1}^Na_t(j)\beta_t(j)}$
$2 .$ 给定模型 $\lambda,O$ 在时刻 $t$ 在, $q_i$ 且 $t + 1$ 在 $q_j$ 处的概率
$\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)$
$=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{\sum\limits_{i=1}^N\sum\limits_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,O|\lambda)}$
$=\frac{a_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum\limits_{i=1}^N\sum\limits_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,O|\lambda)}$
$3 .$ 导出

在观测 $O$ 下状态 $i$ 出现的期望
$\sum\limits_{t=1}^T\gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移的期望
$\sum\limits_{t=1}^{T-1}\gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移到 $j$ 的期望
$\sum\limits_{t=1}^{T-1}\xi_t(i,j)$

学习算法

监督学习方法

假设已经给出 ${(O_1,I_1),(O_2,I_2),...,(O_S,I_S)\}$ ,我们利用极大似然估计来求
$1 .$ 转移矩阵 $a_{ij}$
$a_{ij}=\frac{A_{ij}}{\sum\limits_{j=1}^NA_{ij}}$
其中 $A_{ij}$ 为 $i$ 到 $j$ 的频数
$2 .$ 观测矩阵估计
$b_j(k)=\frac{B_{jk}}{\sum\limits_{k=1}^MB_{jk}}$
$3 .$ 初始状态的估计为初始的 $q_i$ 频度

Baum-Welch算法

$1 .$ 确定完全数据的对数似然函数
$\log \ P(O,I|\lambda)$
$2 .$ 求 $Q$ 函数
$Q(\lambda,\hat{\lambda})=\sum\limits_I\log P(O,I|\lambda)P(O,I|\hat{\lambda})$
$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_{T}}(o_T)$
$Q(\lambda,\hat{\lambda})=\sum\limits_I\log \pi_{i_1} P(O,I|\hat{\lambda})+\sum\limits_I(\sum\limits_{t=1}^{T-1}\log a_{i_ti_{t+1}})P(O,I|\hat{\lambda})+\sum\limits_I(\sum\limits_{t=1}^T\log b_{i_t}(o_t)P(O,I|\hat{\lambda}))$
$3 .$ 最大化
$(1)$ 第一项
$\sum\limits_I\log \pi_{i_1}P(O,I|\hat{\lambda})=\sum\limits_{i=1}^N \log \pi_i P(O,i_1=i|\hat{\lambda})$
又 $\sum\limits_{i=1}^N\pi_i=1$ ,拉格朗日函数为
$\sum\limits_{i=1}^N\log \pi_iP(O,i_1=i|\hat{\lambda})+\gamma(\sum\limits_{i=1}^N\pi_i-1)$
对 $\pi_i$ 求导为0得
$P(O,i_1=i|\hat{\lambda})+\gamma\pi_i=0$
$\pi_i=\frac{P(O,i_1=i|\hat{\lambda})}{P(O|\hat{\lambda})}$
$(2)$ 第二项
$\sum\limits_I(\sum\limits_{t=1}^{T-1}\log a_{i_ti_{t+1}})P(O,I|\hat{\lambda})=\sum\limits_{i=1}^N\sum\limits_{j=1}^N\sum\limits_{t=1}^{T-1}\log a_{ij}P(O,i_t=i,i_{t+1}=j|\hat{\lambda})$
约束条件为 $\sum\limits_{j=1}^Na_{ij}=1$
$a_{ij}=\frac{\sum\limits_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\hat{\lambda})}{\sum\limits_{t=1}^{T-1}P(O,i_t=i|\hat{\lambda})}$
$(3)$ 第三项
$\sum\limits_I(\sum\limits_{t=1}^T\log b_{i_t}(o_t)P(O,I|\hat{\lambda}))=\sum\limits_{j=1}^N\sum\limits_{t=1}^T\log b_j(o_t)P(O,i_t=j|\hat{\lambda})$
同约束条件 $\sum\limits_{k=1}^Mb_j(k)=1$
$b_j(k)=\frac{\sum\limits_{t=1}^TP(O,i_t=j|\hat{\lambda})I(o_t=v_k)}{\sum\limits_{t=1}^TP(O,i_t=j|\hat{\lambda)}}$

Baum-Welch模型参数估计公式

$a_{ij}=\frac{\sum\limits_{t=1}^{T-1}\xi_t(i,j)}{\sum\limits_{t=1}^{T-1}\gamma_t(i)}$
$b_j(k)=\frac{\sum\limits_{t=1,o_t=v_k}^{T}\gamma_t(j)}{\sum\limits_{t=1}^{T}\gamma_t(j)}$
$\pi_i=\gamma_1(i)$
算法
输入：观测数据 $O=(o_1,o_2,..,o_T)$
输出：隐马尔可夫模型
$(1)$ 对于 $n = 0$ 选取 $\lambda^{(0)}=(A^{(0)},B^{(0)},\pi^{(0)})$
$(2)$ 递推
$a_{ij}^{(n+1)}=\frac{\sum\limits_{t=1}^{T-1}\xi_t(i,j)}{\sum\limits_{t=1}^{T-1}\gamma_t(i)}$
$b_j(k)^{(n+1)}=\frac{\sum\limits_{t=1,o_t=v_k}^{T}\gamma_t(j)}{\sum\limits_{t=1}^{T}\gamma_t(j)}$
$\pi_i^{(n+1)}=\gamma_1(i)$
$(3)$ 如果满足条件，终止

预测算法

近似算法

$i_t^*=\argmax\limits_{1\le i\le N}[\gamma_t(i)]$
但太简单了

维特比算法

输入:模型 $\lambda,O$
输出:最优路径 $I^*$
$(1)$ 初始化
$\varrho_1(i)=\pi_ib_i(o_1)$
$\psi_1(i)=0$
$(2)$ 递推
$\varrho_t(i)=\max\limits_{1\le j \le N}[\varrho_{t-1}(j)a_{ji}]b_i(o_t)$
$\psi_t(i)=\argmax\limits_{1 \le j \le N}[\varrho_{t-1}(j)a_{ji}]$
$(3)$ 终止
$P^*=\max\limits_{1 \le i \le N}\varrho_T(i)$
$i_T^*=\argmax\limits_{1 \le i \le N}[\varrho_T(i)]$
$(4)$ 回溯最优路径