HMM隐马尔可夫模型

隐马尔可夫模型

隐马尔可夫模型是一种概率图模型。我们知道,机器学习模型可以从频率派和贝叶斯派两个方向考虑,在频率派的方法中的核心是优化问题,而在贝叶斯派的方法中,核心是积分问题,也发展出来了一系列的积分方法如变分推断,MCMC 等。概率图模型最基本的模型可以分为有向图(贝叶斯网络)和无向图(马尔可夫随机场)两个方面,例如 GMM,在这些基本的模型上,如果样本之间存在关联,可以认为样本中附带了时序信息,从而样本之间不独立全同分布的,这种模型就叫做动态模型,隐变量随着时间发生变化,于是观测变量也发生变化:

z1
z2
z3

根据状态变量的特点,可以分为:

  1. HMM,状态变量(隐变量)是离散的
  2. Kalman 滤波,状态变量是连续的,线性的
  3. 粒子滤波,状态变量是连续,非线性的

HMM

HMM 用概率图表示为:

one
two
three
four
x1
t1
x2
t2
x3
t3
x4
t4

上图表示了四个时刻的隐变量变化。用参数 λ = ( π , A , B ) \lambda=(\pi,A,B) λ=(π,A,B) 来表示,其中 π \pi π 是开始的概率分布, A A A 为状态转移矩阵, B B B 为发射矩阵。

下面使用   o t  o_t  ot 来表示观测变量, O O O 为观测序列, V = { v 1 , v 2 , ⋯   , v M } V=\{v_1,v_2,\cdots,v_M\} V={v1,v2,,vM} 表示观测的值域, i t i_t it 表示状态变量, I I I 为状态序列, Q = { q 1 , q 2 , ⋯   , q N } Q=\{q_1,q_2,\cdots,q_N\} Q={q1,q2,,qN} 表示状态变量的值域。定义 A = ( a i j = p ( i t + 1 = q j ∣ i t = q i ) ) A=(a_{ij}=p(i_{t+1}=q_j|i_t=q_i)) A=(aij=p(it+1=qjit=qi)) 表示状态转移矩阵, B = ( b j ( k ) = p ( o t = v k ∣ i t = q j ) ) B=(b_j(k)=p(o_t=v_k|i_t=q_j)) B=(bj(k)=p(ot=vkit=qj)) 表示发射矩阵。

在 HMM 中,有两个基本假设:

  1. 齐次 Markov 假设(未来只依赖于当前):
    p ( i t + 1 ∣ i t , i t − 1 , ⋯   , i 1 , o t , o t − 1 , ⋯   , o 1 ) = p ( i t + 1 ∣ i t ) p(i_{t+1}|i_t,i_{t-1},\cdots,i_1,o_t,o_{t-1},\cdots,o_1)=p(i_{t+1}|i_t) p(it+1it,it1,,i1,ot,ot1,,o1)=p(it+1it)

  2. 观测独立假设:
    p ( o t ∣ i t , i t − 1 , ⋯   , i 1 , o t − 1 , ⋯   , o 1 ) = p ( o t ∣ i t ) p(o_t|i_t,i_{t-1},\cdots,i_1,o_{t-1},\cdots,o_1)=p(o_t|i_t) p(otit,it1,,i1,ot1,,o1)=p(otit)

HMM 要解决三个问题:

  1. Evaluation: p ( O ∣ λ ) p(O|\lambda) p(Oλ),Forward-Backward 算法
  2. Learning: λ = a r g m a x λ p ( O ∣ λ ) \lambda=\mathop{argmax}\limits_{\lambda}p(O|\lambda) λ=λargmaxp(Oλ),EM 算法(Baum-Welch)
  3. Decoding: I = a r g m a x I p ( I ∣ O , λ ) I=\mathop{argmax}\limits_{I}p(I|O,\lambda) I=Iargmaxp(IO,λ),Vierbi 算法
    1. 预测问题: p ( i t + 1 ∣ o 1 , o 2 , ⋯   , o t ) p(i_{t+1}|o_1,o_2,\cdots,o_t) p(it+1o1,o2,,ot)
    2. 滤波问题: p ( i t ∣ o 1 , o 2 , ⋯   , o t ) p(i_t|o_1,o_2,\cdots,o_t) p(ito1,o2,,ot)

Evaluation

p ( O ∣ λ ) = ∑ I p ( I , O ∣ λ ) = ∑ I p ( O ∣ I , λ ) p ( I ∣ λ ) p(O|\lambda)=\sum\limits_{I}p(I,O|\lambda)=\sum\limits_{I}p(O|I,\lambda)p(I|\lambda) p(Oλ)=Ip(I,Oλ)=Ip(OI,λ)p(Iλ)

p ( I ∣ λ ) = p ( i 1 , i 2 , ⋯   , i t ∣ λ ) = p ( i t ∣ i 1 , i 2 , ⋯   , i t − 1 , λ ) p ( i 1 , i 2 , ⋯   , i t − 1 ∣ λ ) p(I|\lambda)=p(i_1,i_2,\cdots,i_t|\lambda)=p(i_t|i_1,i_2,\cdots,i_{t-1},\lambda)p(i_1,i_2,\cdots,i_{t-1}|\lambda) p(Iλ)=p(i1,i2,,itλ)=p(iti1,i2,,it1,λ)p(i1,i2,,it1λ)

根据齐次 Markov 假设:
p ( i t ∣ i 1 , i 2 , ⋯   , i t − 1 , λ ) = p ( i t ∣ i t − 1 ) = a i t − 1 i t p(i_t|i_1,i_2,\cdots,i_{t-1},\lambda)=p(i_t|i_{t-1})=a_{i_{t-1}i_t} p(iti1,i2,,it1,λ)=p(itit1)=ait1it
所以:
p ( I ∣ λ ) = π 1 ∏ t = 2 T a i t − 1 , i t p(I|\lambda)=\pi_1\prod\limits_{t=2}^Ta_{i_{t-1},i_t} p(Iλ)=π1t=2Tait1,it
又由于:
p ( O ∣ I , λ ) = ∏ t = 1 T b i t ( o t ) p(O|I,\lambda)=\prod\limits_{t=1}^Tb_{i_t}(o_t) p(OI,λ)=t=1Tbit(ot)
于是:
p ( O ∣ λ ) = ∑ I π i 1 ∏ t = 2 T a i t − 1 , i t ∏ t = 1 T b i t ( o t ) p(O|\lambda)=\sum\limits_{I}\pi_{i_1}\prod\limits_{t=2}^Ta_{i_{t-1},i_t}\prod\limits_{t=1}^Tb_{i_t}(o_t) p(Oλ)=Iπi1t=2Tait1,itt=1Tbit(ot)
我们看到,上面的式子中的求和符号是对所有的观测变量求和,于是复杂度为 O ( N T ) O(N^T) O(NT)

下面,记 α t ( i ) = p ( o 1 , o 2 , ⋯   , o t , i t = q i ∣ λ ) \alpha_t(i)=p(o_1,o_2,\cdots,o_t,i_t=q_i|\lambda) αt(i)=p(o1,o2,,ot,it=qiλ),所以, α T ( i ) = p ( O , i T = q i ∣ λ ) \alpha_T(i)=p(O,i_T=q_i|\lambda) αT(i)=p(O,iT=qiλ)。我们看到:
p ( O ∣ λ ) = ∑ i = 1 N p ( O , i T = q i ∣ λ ) = ∑ i = 1 N α T ( i ) p(O|\lambda)=\sum\limits_{i=1}^Np(O,i_T=q_i|\lambda)=\sum\limits_{i=1}^N\alpha_T(i) p(Oλ)=i=1Np(O,iT=qiλ)=i=1NαT(i)
α t + 1 ( j ) \alpha_{t+1}(j) αt+1(j)
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲\alpha_{t+1}(j)…
利用观测独立假设:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲\alpha_{t+1}(j)…
上面利用了齐次 Markov 假设得到了一个递推公式,这个算法叫做前向算法。

还有一种算法叫做后向算法,定义 β t ( i ) = p ( o t + 1 , o t + 1 , ⋯ , o T ∣ i t = i , λ ) \beta_t(i)=p(o_{t+1},o_{t+1},\cdots,o_T|i_t=i,\lambda) βt(i)=p(ot+1,ot+1,oTit=i,λ)
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲p(O|\lambda)&=p…
对于这个 β 1 ( i ) \beta_1(i) β1(i)
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲\beta_t(i)&=p(o…
于是后向地得到了第一项。

Learning

为了学习得到参数的最优值,在 MLE 中:
λ M L E = a r g m a x λ p ( O ∣ λ ) \lambda_{MLE}=\mathop{argmax}_\lambda p(O|\lambda) λMLE=argmaxλp(Oλ)
我们采用 EM 算法(在这里也叫 Baum Welch 算法),用上标表示迭代:
θ t + 1 = a r g m a x θ ∫ z log ⁡ p ( X , Z ∣ θ ) p ( Z ∣ X , θ t ) d z \theta^{t+1}=\mathop{argmax}_{\theta}\int_z\log p(X,Z|\theta)p(Z|X,\theta^t)dz θt+1=argmaxθzlogp(X,Zθ)p(ZX,θt)dz
其中, X X X 是观测变量, Z Z Z 是隐变量序列。于是:
λ t + 1 = a r g m a x λ ∑ I log ⁡ p ( O , I ∣ λ ) p ( I ∣ O , λ t ) = a r g m a x λ ∑ I log ⁡ p ( O , I ∣ λ ) p ( O , I ∣ λ t ) \lambda^{t+1}=\mathop{argmax}_\lambda\sum\limits_I\log p(O,I|\lambda)p(I|O,\lambda^t)\\ =\mathop{argmax}_\lambda\sum\limits_I\log p(O,I|\lambda)p(O,I|\lambda^t) λt+1=argmaxλIlogp(O,Iλ)p(IO,λt)=argmaxλIlogp(O,Iλ)p(O,Iλt)
这里利用了 p ( O ∣ λ t ) p(O|\lambda^t) p(Oλt) λ \lambda λ 无关。将 Evaluation 中的式子代入:
∑ I log ⁡ p ( O , I ∣ λ ) p ( O , I ∣ λ t ) = ∑ I [ log ⁡ π i 1 + ∑ t = 2 T log ⁡ a i t − 1 , i t + ∑ t = 1 T log ⁡ b i t ( o t ) ] p ( O , I ∣ λ t ) \sum\limits_I\log p(O,I|\lambda)p(O,I|\lambda^t)=\sum\limits_I[\log \pi_{i_1}+\sum\limits_{t=2}^T\log a_{i_{t-1},i_t}+\sum\limits_{t=1}^T\log b_{i_t}(o_t)]p(O,I|\lambda^t) Ilogp(O,Iλ)p(O,Iλt)=I[logπi1+t=2Tlogait1,it+t=1Tlogbit(ot)]p(O,Iλt)
π t + 1 \pi^{t+1} πt+1
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲\pi^{t+1}&=\mat…
上面的式子中,对 i 2 , i 2 , ⋯   , i T i_2,i_2,\cdots,i_T i2,i2,,iT 求和可以将这些参数消掉:
π t + 1 = a r g m a x π ∑ i 1 [ log ⁡ π i 1 ⋅ p ( O , i 1 ∣ λ t ) ] \pi^{t+1}=\mathop{argmax}_\pi\sum\limits_{i_1}[\log \pi_{i_1}\cdot p(O,i_1|\lambda^t)] πt+1=argmaxπi1[logπi1p(O,i1λt)]
上面的式子还有对 π \pi π 的约束 ∑ i π i = 1 \sum\limits_i\pi_i=1 iπi=1。定义 Lagrange 函数:
L ( π , η ) = ∑ i = 1 N log ⁡ π i ⋅ p ( O , i 1 = q i ∣ λ t ) + η ( ∑ i = 1 N π i − 1 ) L(\pi,\eta)=\sum\limits_{i=1}^N\log \pi_i\cdot p(O,i_1=q_i|\lambda^t)+\eta(\sum\limits_{i=1}^N\pi_i-1) L(π,η)=i=1Nlogπip(O,i1=qiλt)+η(i=1Nπi1)
于是:
∂ L ∂ π i = 1 π i p ( O , i 1 = q i ∣ λ t ) + η = 0 \frac{\partial L}{\partial\pi_i}=\frac{1}{\pi_i}p(O,i_1=q_i|\lambda^t)+\eta=0 πiL=πi1p(O,i1=qiλt)+η=0
对上式求和:
∑ i = 1 N p ( O , i 1 = q i ∣ λ t ) + π i η = 0 ⇒ η = − p ( O ∣ λ t ) \sum\limits_{i=1}^Np(O,i_1=q_i|\lambda^t)+\pi_i\eta=0\Rightarrow\eta=-p(O|\lambda^t) i=1Np(O,i1=qiλt)+πiη=0η=p(Oλt)
所以:
π i t + 1 = p ( O , i 1 = q i ∣ λ t ) p ( O ∣ λ t ) \pi_i^{t+1}=\frac{p(O,i_1=q_i|\lambda^t)}{p(O|\lambda^t)} πit+1=p(Oλt)p(O,i1=qiλt)

Decoding

Decoding 问题表述为:
I = a r g m a x I p ( I ∣ O , λ ) I=\mathop{argmax}\limits_{I}p(I|O,\lambda) I=Iargmaxp(IO,λ)
我们需要找到一个序列,其概率最大,这个序列就是在参数空间中的一个路径,可以采用动态规划的思想。

定义:
δ t ( j ) = max ⁡ i 1 , ⋯   , i t − 1 p ( o 1 , ⋯   , o t , i 1 , ⋯   , i t − 1 , i t = q i ) \delta_{t}(j)=\max\limits_{i_1,\cdots,i_{t-1}}p(o_1,\cdots,o_t,i_1,\cdots,i_{t-1},i_t=q_i) δt(j)=i1,,it1maxp(o1,,ot,i1,,it1,it=qi)
于是:
δ t + 1 ( j ) = max ⁡ 1 ≤ i ≤ N δ t ( i ) a i j b j ( o t + 1 ) \delta_{t+1}(j)=\max\limits_{1\le i\le N}\delta_t(i)a_{ij}b_j(o_{t+1}) δt+1(j)=1iNmaxδt(i)aijbj(ot+1)
这个式子就是从上一步到下一步的概率再求最大值。记这个路径为:
ψ t + 1 ( j ) = a r g m a x 1 ≤ i ≤ N δ t ( i ) a i j \psi_{t+1}(j)=\mathop{argmax}\limits_{1\le i\le N}\delta_t(i)a_{ij} ψt+1(j)=1iNargmaxδt(i)aij

小结

HMM 是一种动态模型,是由混合树形模型和时序结合起来的一种模型(类似 GMM + Time)。对于类似 HMM 的这种状态空间模型,普遍的除了学习任务(采用 EM )外,还有推断任务,推断任务包括:

  1. 译码 Decoding: p ( z 1 , z 2 , ⋯   , z t ∣ x 1 , x 2 , ⋯   , x t ) p(z_1,z_2,\cdots,z_t|x_1,x_2,\cdots,x_t) p(z1,z2,,ztx1,x2,,xt)

  2. 似然概率: p ( X ∣ θ ) p(X|\theta) p(Xθ)

  3. 滤波:   p ( z t ∣ x 1 , ⋯   , x t )  p(z_t|x_1,\cdots,x_t)  p(ztx1,,xt),Online
    p ( z t ∣ x 1 : t ) = p ( x 1 : t , z t ) p ( x 1 : t ) = C α t ( z t ) p(z_t|x_{1:t})=\frac{p(x_{1:t},z_t)}{p(x_{1:t})}=C\alpha_t(z_t) p(ztx1:t)=p(x1:t)p(x1:t,zt)=Cαt(zt)

  4. 平滑: p ( z t ∣ x 1 , ⋯   , x T ) p(z_t|x_1,\cdots,x_T) p(ztx1,,xT),Offline
    p ( z t ∣ x 1 : T ) = p ( x 1 : T , z t ) p ( x 1 : T ) = α t ( z t ) p ( x t + 1 : T ∣ x 1 : t , z t ) p ( x 1 : T ) p(z_t|x_{1:T})=\frac{p(x_{1:T},z_t)}{p(x_{1:T})}=\frac{\alpha_t(z_t)p(x_{t+1:T}|x_{1:t},z_t)}{p(x_{1:T})} p(ztx1:T)=p(x1:T)p(x1:T,zt)=p(x1:T)αt(zt)p(xt+1:Tx1:t,zt)
    根据概率图的条件独立性,有:
    p ( z t ∣ x 1 : T ) = α t ( z t ) p ( x t + 1 : T ∣ z t ) p ( x 1 : T ) = C α t ( z t ) β t ( z t ) p(z_t|x_{1:T})=\frac{\alpha_t(z_t)p(x_{t+1:T}|z_t)}{p(x_{1:T})}=C\alpha_t(z_t)\beta_t(z_t) p(ztx1:T)=p(x1:T)αt(zt)p(xt+1:Tzt)=Cαt(zt)βt(zt)
    这个算法叫做前向后向算法。

  5. 预测: p ( z t + 1 , z t + 2 ∣ x 1 , ⋯   , x t ) , p ( x t + 1 , x t + 2 ∣ x 1 , ⋯   , x t ) p(z_{t+1},z_{t+2}|x_1,\cdots,x_t),p(x_{t+1},x_{t+2}|x_1,\cdots,x_t) p(zt+1,zt+2x1,,xt),p(xt+1,xt+2x1,,xt)
    p ( z t + 1 ∣ x 1 : t ) = ∑ z t p ( z t + 1 , z t ∣ x 1 : t ) = ∑ z t p ( z t + 1 ∣ z t ) p ( z t ∣ x 1 : t ) p(z_{t+1}|x_{1:t})=\sum_{z_t}p(z_{t+1},z_t|x_{1:t})=\sum\limits_{z_t}p(z_{t+1}|z_t)p(z_t|x_{1:t}) p(zt+1x1:t)=ztp(zt+1,ztx1:t)=ztp(zt+1zt)p(ztx1:t)

    p ( x t + 1 ∣ x 1 : t ) = ∑ z t + 1 p ( x t + 1 , z t + 1 ∣ x 1 : t ) = ∑ z t + 1 p ( x t + 1 ∣ z t + 1 ) p ( z t + 1 ∣ x 1 : t ) p(x_{t+1}|x_{1:t})=\sum\limits_{z_{t+1}}p(x_{t+1},z_{t+1}|x_{1:t})=\sum\limits_{z_{t+1}}p(x_{t+1}|z_{t+1})p(z_{t+1}|x_{1:t}) p(xt+1x1:t)=zt+1p(xt+1,zt+1x1:t)=zt+1p(xt+1zt+1)p(zt+1x1:t)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值