Hidden Markov Model (HMM)

最新推荐文章于 2021-10-13 16:26:46 发布

mmgd

最新推荐文章于 2021-10-13 16:26:46 发布

阅读量519

点赞数

分类专栏： Machine Learning 文章标签： HMM

本文链接：https://blog.csdn.net/mingge_deng/article/details/50502927

版权

Machine Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hidden Markov Model (HMM)

I. Notations

observation sequence: $\quad \bf{U} =\{u_t\ |\ t\in \mathcal{T}\} = \{u_1, u_2, ..., u_T\}$

hidden state sequence: $\quad\bf{S} = \{s_t\ |\ t\in \mathcal{T}\} = \{s_1, s_2, ..., s_T\}$

number of observations: $\ T\quad\quad$ number of states: $\ M$

parameter sets: $\quad \lambda = (\pi, A, B)$

π = (π k), π k = P (s 1 = k), 1 \leq l \leq M

$\pi = \big(\pi_k\big), \quad \pi_k = P(s_1 = k), \quad 1 \leq l \leq M$

A = (a k l), a k l = P (s t + 1 = l | s t = k), 1 \leq l, k \leq M

$A = \big(a_{kl}\big), \quad a_{kl} = P(s_{t+1} = l \ | \ s_t =k), \quad 1 \leq l, k \leq M$

B = (b k (u)), b k (u) = P (u t = u | s t = k), 1 \leq k \leq M

$B = \big(b_k(u)\big), \quad b_k(u) = P(u_t = u\ | \ s_t = k), \quad 1 \leq k \leq M$

II. Joint and Marginal Distributions

P (U, S | λ) = P (S | λ) P (U | S, λ) = π s 1 b s 1 (u 1) a s 1, s 2 b s 2 (u 2) . . . a s T - 1, s T b s T (u T)

$P(\bf{U}, \bf{S} \ | \ \lambda) = P(\bf{S} \ | \ \lambda) \ P(\bf{U} \ | \ \bf{S}, \lambda) =\pi_{s_1} b_{s_1}(u_1) a_{s_1, s_2} b_{s_2}(u_2) ... a_{s_{T-1}, s_T} b_{s_T}(u_T)$

P (U | λ) = \sum S P (U, S | λ) = \sum S π s 1 b s 1 (u 1) a s 1, s 2 b s 2 (u 2) . . . a s T - 1, s T b s T (u T)

$P(\bf{U} \ | \ \lambda) = \sum_{\bf{S}} P(\bf{U}, \bf{S} \ | \ \lambda) = \sum_{\bf{S}}\pi_{s_1} b_{s_1}(u_1) a_{s_1, s_2} b_{s_2}(u_2) ... a_{s_{T-1}, s_T} b_{s_T}(u_T)$

III. Important pre-defined terms:

$\alpha_k(t) \equiv P(u_{1:t}, \ s_t = k \ | \ \lambda)$ with initial $\alpha_k(1) = \pi_k b_k(u_1)$ and recursions $\alpha_k(t) = \big(\sum_{l=1}^M \alpha_l(t-1) a_{lk}\big) b_k(u_t)$
$\beta_k(t) \equiv P(u_{t+1:T} \ | \ s_t = k, \lambda)$ with initial $\beta_k(T) = 1$ and recursions $\beta_k(t) = \big(\sum_{l=1}^M a_{kl} b_l(u_{t+1})\beta_l(t+1)\big)$
$L_k(t) \equiv P(s_t = k, \ | \ \bf{U}, \lambda)$ , conditional probability of being in state $k$ at time $t$ with given observations $\bf{U}$ .

$L k (t) \equiv P (s t = k, | U, λ) = P ( U , s t = k | λ ) P ( U | λ ) = P ( u 1 : t , s t = k | λ ) P ( u t + 1 : T | s t = k , λ ) P ( U | λ ) = α k ( t ) β k ( t ) P ( U | λ )$ $L_k(t) \equiv P(s_t = k, \ | \ \bf{U}, \lambda) = \frac{P(\bf{U}, s_t = k \ | \ \lambda)}{P(\bf{U} \ | \ \lambda)} = \frac{P(u_{1:t}, s_t =k \ | \ \lambda) P(u_{t+1:T} \ | \ s_t =k, \lambda)}{P(\bf{U} \ | \ \lambda)} = \frac{\alpha_k(t)\beta_k(t)}{P(\bf{U} \ | \ \lambda)}$
$H_{k,l}(t) \equiv P(s_t = k, s_{t+1} = l \ | \ \bf{U}, \lambda)$ , conditional probability of being in state $k$ at time $t$ and in state $l$ at time $t+1$ with given observations $\bf{U}$ .

$H k, l (t) \equiv P (s t = k, s t + 1 = l | U, λ) = P ( U , s t = k , s t + 1 = l | λ ) P ( U | λ ) = α k ( t ) a k l b l ( u t + 1 ) β l ( t + 1 ) P ( U | λ )$ $H_{k,l}(t) \equiv P(s_t = k, s_{t+1} = l \ | \ \bf{U}, \lambda) = \frac{P(\bf{U}, s_t = k, s_{t+1} = l\ | \ \lambda) }{P(\bf{U}\ | \ \lambda)} = \frac{\alpha_k(t)a_{kl}b_l(u_{t+1})\beta_l(t+1)}{P(\bf{U}\ | \ \lambda)}$

IV. HMM Problem I:

Compute $P(\bf{U} \ | \ \lambda)$ using Forward-Backward algorithm

P (U | λ)) = P (u 1 : t, u t + 1 : T | λ) = \sum k = 1 M P (u 1 : t, s t = k, u t + 1 : T | λ)

$P(\bf{U} \ | \ \lambda)) = P(u_{1:t}, u_{t+1:T} \ | \ \lambda) = \sum_{k=1}^M P(u_{1:t}, s_t =k, u_{t+1:T} \ | \ \lambda)$

= \sum k = 1 M P (u 1 : t, s t = k | λ) P (u t + 1 : T | u 1 : t, s t = k, λ) = \sum k = 1 M α k (t) β k (t) = \sum k = 1 M α k (T)

$= \sum_{k=1}^M P(u_{1:t}, s_t = k \ | \ \lambda) P(u_{t+1:T} \ | \ u_{1:t}, s_t =k, \lambda) =\sum_{k=1}^M \alpha_k(t)\beta_k(t) = \sum_{k=1}^M \alpha_k(T)$

V. HMM Problem II:

Compute $\hat{\bf{S}} =\arg\max\limits_{\bf{S}} P(\bf{S} \ | \ \bf{U})$ using Viterbi algorithm

W (S) \equiv - log P (S, U | λ) = - [log π s 1 b s 1 (u 1) + \sum t = 2 T log a s t - 1, s t b s t (u t)]

$W(\bf{S}) \equiv -\log P(\bf{S}, \bf{U} \ | \ \lambda) = -\bigg[\log \pi_{s_1} b_{s_1}(u_1) + \sum_{t=2}^T \log a_{s_{t-1}, s_t} b_{s_t}(u_t)\bigg]$
then problem II can be written as

S ̂ = arg max S P (S | U, λ) = arg max S P ( S , U | λ ) P ( U | λ ) = arg max S P (S, U | λ) = arg min S W (S)

$\displaystyle \hat{\bf{S}} = \arg\max\limits_{\bf{S}} P(\bf{S} \ | \ \bf{U}, \lambda) = \arg\max\limits_{\bf{S}} \frac{P(\bf{S}, \bf{U} \ | \ \lambda)}{P(\bf{U}\ | \ \lambda)}= \arg\max\limits_{\bf{S}} P(\bf{S}, \bf{U}\ | \ \lambda) = \arg\min\limits_{\bf{S}} W(\bf{S})$

with further define

V t (t) = min s 1, s 2, . . ., s t - 1 [- log P (s 1 : t - 1, s t = k, U | λ)]

$V_t(t) = \min\limits_{s_1, s_2, ..., s_{t-1}} \Big[-\log P(s_{1:t-1}, s_t =k, \bf{U}\ | \ \lambda)\Big]$

= max s 1, s 2, . . ., s t - 1 [log π s 1 b s 1 (u 1) + \sum t' = 2 t - 1 log a s t' - 1, s t' b s t' (u t') + log a s t - 1, k b k (u t)]

$= \max\limits_{s_1, s_2, ..., s_{t-1}} \bigg[\log \pi_{s_1} b_{s_1}(u_1) + \sum_{t'=2}^{t-1} \log a_{s_{t'-1}, s_{t'}} b_{s_{t'}}(u_{t'}) + \log a_{s_{t-1}, k} b_k(u_t)\bigg]$

Initialize $V_1(k) = -\log \pi_{k} b_{k}(u_1) \ \ \forall \ \ 1 \leq k \leq M$
Compute $V_t(k)$ with recursions
$V t (k) = max l (V t - 1 (l) - log a l k b k (u t)) \forall 1 \leq k \leq M, 2 \leq t \leq T$ $V_t(k) = \max\limits_l \Big(V_{t-1}(l) - \log a_{lk}b_k(u_t)\Big) \quad \forall \ \ 1\leq k \leq M, \quad 2 \leq t \leq T$
Get the minimum value $W(\bf{S}) = \min\limits_{1 \leq k \leq M} V_T(k)$
Trace back to find the optimal state path $\{s_T, s_{T-1}, ..., s_1\}$

V. HMM Problem III:

Compute $\hat{\lambda} = \arg\max\limits_{\lambda} P(\bf{u} \ | \ \lambda)$ using Baum-Welch algorithm

Baum-Welch algorithm is the EM estimation of HMM parameters

E-Step: under current set of parameters $\lambda_{old}$ , compute $\alpha_k(t)$ , $\beta_k(t)$ , $L_k(t)$ , $H_{k, l}(t)$

M-Step: update parameters
+ For Discrete HMM:

π ̂ k = L k ( 1 ) \sum M k = 1 L k ( 1 ) a ̂ k l = \sum T - 1 t = 1 H k , l ( t ) \sum T - 1 t = 1 L k ( t ) b ̂ k (j) = \sum T t = 1 L k ( t ) 1 u t = j \sum T t = 1 L k ( t )

$\hat{\pi}_k = \frac{L_k(1)}{\sum_{k=1}^M L_k(1)} \quad\quad\quad \hat{a}_{kl} = \frac{\sum_{t=1}^{T-1} H_{k,l}(t)}{\sum_{t=1}^{T-1}L_k(t)} \quad\quad\quad \hat{b}_k(j) = \frac{\sum_{t=1}^{T} L_k(t)\mathcal{1}_{u_t = j}}{\sum_{t=1}^{T}L_k(t)}$

For Gaussian HMM:
$π ̂ k = L k ( 1 ) \sum M k = 1 L k ( 1 ) a ̂ k l = \sum T - 1 t = 1 H k , l ( t ) \sum T - 1 t = 1 L k ( t ) μ ̂ k = \sum T t = 1 L k ( t ) u t \sum T t = 1 L k ( t ) Σ ̂ k = \sum T t = 1 L k ( t ) ( u t - μ k ) ( u t - μ k ) T \sum T t = 1 L k ( t )$ $\hat{\pi}_k = \frac{L_k(1)}{\sum_{k=1}^M L_k(1)} \quad\quad\quad \hat{a}_{kl} = \frac{\sum_{t=1}^{T-1} H_{k,l}(t)}{\sum_{t=1}^{T-1}L_k(t)} \quad\quad\quad \hat{\mu}_k = \frac{\sum_{t=1}^{T} L_k(t) u_t}{\sum_{t=1}^{T}L_k(t)} \quad\quad\quad \hat{\Sigma}_k = \frac{\sum_{t=1}^{T} L_k(t) (u_t-\mu_k)(u_t-\mu_k)^T}{\sum_{t=1}^{T}L_k(t)}$