HMM(隐马尔科夫模型的无监督学习方法)

最新推荐文章于 2024-09-11 17:46:38 发布

luixiao1220

最新推荐文章于 2024-09-11 17:46:38 发布

阅读量1k

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/luixiao1220/article/details/109354166

版权

算法专栏收录该内容

33 篇文章 2 订阅

订阅专栏

UTF8gbsn

Induction

The main topic of this article is about Baum-Welch algorithm. We will
estimate $\lambda=(A,B,\pi)$ with $\{O_1,O_2,\cdots,O_S\}$ and the
lenght of $O_i$ is $T$ . The object of our probability model is
$P(O|\lambda)=\sum_{I}P(I|\lambda)P(O|I,\lambda)$

The parameters of the upon formula can be estimated by EM algorithm.

E step:
$Q(\lambda, \overline{\lambda})=\sum_{I}P(O,I|\overline{\lambda})logP(O,I|\lambda)$

$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1,i_2}b_{i_2}(o_2)\cdots a_{i_{T-1},i_{T}}b_{i_T}(o_T)$

The function $Q(\lambda,\overline{\lambda})$ becomes:

$\left. \begin{aligned} Q(\lambda,\overline{\lambda})=&\sum_{I}log\pi_{i_1}P(O,I|\overline{\lambda})+\\ &\sum_I(\sum_{t=1}^{T-1}loga_{i_{t},i_{t+1}})P(O,I|\overline{\lambda})+\\ &\sum_I(\sum_{t=1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda}) \end{aligned} \right.$
M step:
1. $\pi_i$
  $\sum_Ilog\pi_{i_1} P(O,I|\overline{\lambda})=\sum_{i=1}^{N}log\pi_iP(O,i_1=i|\overline{\lambda})$
  There is a constraint $\sum_{i=1}^{N}\pi_i=1$ ,and using the
  lagrange multiplier will help us to form the lagrange function
  as follow:
  
  $f(\pi, \gamma)=\sum_{i=1}^{N}log\pi_iP(O,i_1=i|\overline{\lambda})+\gamma(\sum_{i=1}^{N}\pi_i=1)$
  
  The partial derivative of $f(\pi,\gamma)$ is:
  $\frac{\partial}{\partial \pi_{i}}\left[\sum_{i=1}^{N} \log \pi_{i} P\left(O, i_{1}=i \mid \bar{\lambda}\right)+\gamma\left(\sum_{i=1}^{N} \pi_{i}-1\right)\right]=0$
  We simplify the upon formula as :
  
  $P\left(O, i_{1}=i \mid \bar{\lambda}\right)+\gamma \pi_{i}=0$
  
  From
  $\sum_{i=1}^{N}[P\left(O, i_{1}=i \mid \bar{\lambda}\right)+\gamma \pi_{i}]=0$ ,
  we can get $\gamma=-P(O|\overline{\lambda})$
  
  Finally, we get the following formula which is:
  $\pi_i=\frac{P(O,i_1=i|\overline{\lambda})}{P(O|\overline{\lambda})}$
2. $a_{ij}$
  
  $\sum_I(\sum_{t=1}^{T-1}loga_{i_{t},i_{t+1}})P(O,I|\overline{\lambda})=\sum_{i=1}^{N} \sum_{j=1}^{N} \sum_{t=1}^{T-1} \log a_{i j} P\left(O, i_{t}=i, i_{t+1}=j \mid \bar{\lambda}\right)$
  
  Constraints of this function are
  $\sum_{j=1}^{N}a_{1j}=1$ , $\sum_{j=1}^{N}a_{2j}=1$ , $\cdots$ , $\sum_{j=1}^{N}a_{Nj}=1$
  ,and our final object function will be :
  $\mathbf{\gamma})=\sum_{i=1}^{N} \sum_{j=1}^{N} \sum_{t=1}^{T-1} \log a_{i j} P\left(O, i_{t}=i, i_{t+1}=j \mid \bar{\lambda}\right)+\sum_{i=1}^{N}\gamma_i(\sum_{j=1}^{N}a_{ij}-1)$
  
  $\frac{\partial f(A, \mathbf{\gamma})}{\partial a_{ij}}=\sum_{t=1}^{T-1}P(O|i_t=i,i_{t+1}=j|\overline{\lambda})+a_{ij}\gamma_i=0$
  
  $\sum_{j=1}^{N}(\sum_{t=1}^{T-1}P(O|i_t=i,i_{t+1}=j|\overline{\lambda})+a_{ij}\gamma_i) \Rightarrow \gamma_i=-\sum_{t=1}^{T-1}P(O,i_t=i|\overline{\lambda})$
  
  Finally, we get our $a_{ij}$ :
  $a_{ij}=\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=i, i_{t+1}=j \mid \bar{\lambda}\right)}{\sum_{t=1}^{T-1} P\left(O, i_{t}=i \mid \bar{\lambda}\right)}$
3. $b_{j}(k)$
  $\sum_{I}\left(\sum_{t=1}^{T} \log b_{i_{t}}\left(o_{t}\right)\right) P(O, I \mid \bar{\lambda})=\sum_{j=1}^{N} \sum_{t=1}^{T} \log b_{j}\left(o_{t}\right) P\left(O, i_{t}=j \mid \bar{\lambda}\right)$
  Contraints of our function are
  $\sum_{k=1}^{M}b_1(k)=1$ , $\sum_{k=1}^{M}b_2(k)=1$ , $\cdots$ ,
  $\sum_{k=1}^{M}b_N(k)=1$ , and our final object function is:
  $\mathbf{\gamma})=\sum_{j=1}^{N} \sum_{t=1}^{T} \log b_{j}\left(o_{t}\right) P\left(O, i_{t}=j \mid \bar{\lambda}\right)+\sum_{j=1}^{N}\gamma_j(\sum_{k=1}^{M}b_j(k)-1)$
  A critical point of this derivative is $o_t=v_k$ .
  $\frac{\partial f(B, \mathbf{\gamma})}{\partial b_{j}(k)}=\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right) I\left(o_{t}=v_{k}\right) + b_j(k)\gamma_j=0$
  $\sum_{k=1}^{M}\left[\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right) I\left(o_{t}=v_{k}\right) + b_j(k)\gamma_j\right]=0$
  There is just one $I(o_{t}=v_{k})=1$ which means
  $\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right)+\gamma_j=0 \Rightarrow \gamma_j=-\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right)$
  
  Let’s substitute the uppon formula into the original derivative
  which will give us the final result:
  $b_{j}(k)=\frac{\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right) I\left(o_{t}=v_{k}\right)}{\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right)}$

Conclusions

$a_{i j}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)}$
$b_{j}(k)=\frac{\sum_{t=1, o_{t}=v_{k}}^{T} \gamma_{t}(j)}{\sum_{t=1}^{T} \gamma_{t}(j)}$
$\pi_{i}=\gamma_{1}(i)$

Baum-Welch Algorithm

Input: $O=(o_1,o_2,\cdots, o_T)$ is the observed sequence with length
$T$ .
Output: $\lambda=(\mathbf{A,B,\pi})$

Alg:

Initialization: For $n = 0$ , we randomly choose
$a_{i j}^{(0)}, b_{j}(k)^{(0)}, \pi_{i}^{(0)}$ to form our initial
model $\lambda^{(0)}=\left(A^{(0)}, B^{(0)}, \pi^{(0)}\right)$
recursion: $n=1,2,\cdots$

$a_{i j}^{(n+1)}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)}$

$b_{j}(k)^{(n+1)}=\frac{\sum_{t=1, o_{t}=v_{k}}^{T} \gamma_{t}(j)}{\sum_{t=1}^{T} \gamma_{t}(j)}$

$\pi_{i}^{(n+1)}=\gamma_{1}(i)$
stop: With some critical,we stop our algorithm and treat the last
result
$\lambda^{(n+1)}=\left(A^{(n+1)}, B^{(n+1)}, \pi^{(n+1)}\right)$ as
our HMM model parameters.