Machine Learning Series No.9 -- HMM(Hidden Markov Model)

最新推荐文章于 2024-01-16 02:41:13 发布

bra_ve

最新推荐文章于 2024-01-16 02:41:13 发布

阅读量233

点赞数

分类专栏：机器学习原理

本文链接：https://blog.csdn.net/bra_ve/article/details/82461006

版权

机器学习原理专栏收录该内容

10 篇文章 0 订阅

订阅专栏

隐马尔科夫模型(Hidden Markov Model, HMM)

1.生成模型，对 $p(x,y)$ 进行建模

2.符号说明

SYMBOLS	meanings
$Q\{q_1,q_2,\cdots,q_n\}$	可能的状态集合
$V\{v_1,v_2,\cdots,v_n\}$	可能的观测集合
$I\{i_1,i_2,\cdots,i_n\}$	真实的状态集合
$O\{o_1,o_2,\cdots,o_n\}$	真实的观测集合
$A=[a_{ij}]_{N*N}$	状态转移矩阵
$B=[b_j(k)]_{N*M}$	观测概率矩阵
$\pi_i= p(i_1=q_i)$	初始状态概率向量

其中 $a_{ij} = p(i_{t+1}=q_j|i_t=q_i),b_j(k)=p(o_t=v_k|i_t=q_j)$ .

3.模型假设:

①齐次马尔科夫假设：任意时刻，当前状态只与上一个状态有关。

\forall t, p (i t | i t - 1, o t - 1, \dots, i 1, o 1) = p (i t | i t - 1)

$\forall t,p(i_t|i{t-1},o{t-1},\cdots,i_1,o_1)=p(i_t|i_{t-1})$
②观测独立性假设：任意时刻，观测仅依赖于当前状态。

\forall t, p (o t | i t, o t, i t - 1, o t - 1, \dots, i 1, o 1) = p (o t | i t)

$\forall t,p(o_t|i_t,o_t,i_{t-1},o_{t-1},\cdots,i_1,o_1) = p(o_t|i_t)$

4.问题

**①估计问题(Evaluation)**

    给定模型$\lambda = (A,B,\pi)$和观测序列$O$,计算$O$出现的概率$p(O|\lambda)$.

**解法：**

直接计算(注意这里 $\lambda$ 是一个固定参数，而不是一个随机变量，正常应该写成分号?)

p (O | λ) = \sum I p (O, I | λ) = \sum I p (O | I, λ) p (I | λ)

$p(O|\lambda) = \sum_I p(O,I|\lambda) = \sum_I p(O|I,\lambda)p(I|\lambda)$

    但是由于$I$的组合数目太多，这个计算量非常大，其复杂度为$O(N^T)$。

p (O | I, λ) = b i 1 (o 1) b i 2 (o 2) \dots b i t (o t)

$p(O|I,\lambda) = b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_t}(o_t)$

p (I | λ) = π i 1 a i 1, i 2 a i 2, i 3 \dots a i t - 1, i t

$p(I|\lambda) = \pi_{i_1}a_{i_1,i_2}a_{i_2,i_3}\cdots a_{i_{t-1},i_{t}}$

p (O, I | λ) = \sum i 1, i 2, \dots, i t π i 1 b i 1 (o 1) a i 1, i 2 b i 2 (o 2) a i 2, i 3 \dots b i t - 1 (o t - 1) a i t - 1, i t b i t (o t)

$p(O,I|\lambda) = \sum_{i_1,i_2,\cdots,i_t} \pi_{i_1}b_{i_1}(o_1)a_{i_1,i_2}b_{i_2}(o_2)a_{i_2,i_3} \cdots b_{i_{t-1}}(o_{t-1})a_{i_{t-1},i_t}b_{i_t}(o_t)$

前向算法

定义 $\alpha_t(i)=p(o_1,o_2,\cdots,o_t,i_t=q_i|\lambda)$ ,即在t时刻观测序列为 $o_1,o_2,\cdots,o_t$ ,状态为 $q_i$ 的概率，称其为前向概率。

则有：

$α t + 1 (i) = \sum j = 1 N α t (j) a j i b i (o t + 1)$ $\alpha_{t+1}(i) = \sum_{j=1}^{N} \alpha_t(j)a_{ji}b_i(o_{t+1})$

$α 1 (i) = π i b i (o 1)$ $\alpha_1(i) = \pi_ib_i(o_1)$

最终：

$p (O | λ) = \sum i = 1 N α T (i)$ $p(O|\lambda) = \sum_{i=1}^{N}\alpha_T(i)$
最终算法转变为动态规划，算法复杂度为 $O(T*N^2)$ .
后向算法

定义 $\beta_t(i)=p(o_{t+1},o_{t+2},\cdots,o_T,i_t=q_i|\lambda)$ ,即在t时刻，其后的观测序列为 $o_{t+1},o_{t+2},\cdots,o_T$ ,状态为 $q_i$ 的概率，称其为后向概率。

则有：

βt(i)=∑j=1Naijbj(ot+1)βt+1(j)

βT(i)=1

最终：

p(O|λ)=∑i=1Nπibi(o1)β1(i)

最终算法转变为动态规划，算法复杂度为 O(T∗N2) .
```
**② 学习问题(Learning)**

学习模型参数，分为两种情况：
```
{A.B.知道观测序列和对应的状态序列仅知道观测序列

解法：
Case A.

极大似然估计

$a i j^= A i j \sum j A i j$ $\hat{a_{ij}} = \frac{A_{ij}}{\sum_j A_{ij}}$

$b j (k)^= B j k \sum k B j k$ $\hat{b_j(k)} = \frac{B_{jk}}{\sum_k B_{jk}}$

$A_{ij}$ 是t时刻处于状态 $i$ ，在t+1时刻转移到状态 $j$ 的频数。

$B_{jk}$ 为状态j观测到k的频数。
Case B.

EM算法估计，状态序列为隐变量。

③预测算法（解码问题，Decoding）
```
给定模型$\lambda$和观测预测$O$，求状态序列。

**解法：**
```
近似算法

在t时刻处于状态i的概率是:

$γ t (i) = p (i t = q i | O, λ) = p ( i t = q i , O | λ ) p ( O | λ ) = α t ( i ) β t ( i ) \sum j α t ( j ) β t ( j )$ $\gamma_t(i) = p(i_t=q_i|O,\lambda) = \frac{p(i_t=q_i,O|\lambda)}{p(O|\lambda)} = \frac{\alpha_t(i)\beta_t(i)}{\sum_{j}\alpha_t(j)\beta_t(j)}$

$i * t = arg max 1 \leq i \leq N [γ t (i)]$ $i_t^* = \arg \max_{1\le i \le N}[\gamma_t(i)]$

最终得到的状态序列为 $I^*= (i_1^*,i_2^*,\cdots,i_T^*)$ .

缺点：不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分。
维特比算法（动态规划算法的一种）

即记录到当前为止，观测序列最有可能的状态序列，然后回溯。称为最大概率路径。

记录的表结构为 $T*N$ 。T为观测序列长度，N为状态可能数目。