隐马尔科夫模型数学理论推导（HMM）

最新推荐文章于 2019-06-21 13:04:50 发布

kevinoop

最新推荐文章于 2019-06-21 13:04:50 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签： HMM

本文链接：https://blog.csdn.net/kevinoop/article/details/80571232

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

一、隐马尔科夫模型基本概念

隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 A 和观测概率矩阵 B 决定。A，B， $\pi$ 称为隐马尔可夫模型的三要素。

λ = (A, B, π)

$\lambda=(A,B,\pi)$

Note: Picture source

上图中是一个简单的描述股票市场的马尔科夫模型：其中隐藏状态为 $\{Bull,Bear,Even\}$ ，观测状态为 $\{up,down,unchanged\}$

根据图模型，我们可以轻易地写出状态转移概率矩阵 A (Let Bull = 1, Bear = 2, Even = 3)：

A = ⎡ ⎣ ⎢ 0.6 0.5 0.4 0.2 0.3 0.1 0.2 0.2 0.5 ⎤ ⎦ ⎥

$A=\begin{bmatrix}0.6 & 0.2 & 0.2\\ 0.5& 0.3 &0.2 \\ 0.4 & 0.1 & 0.5\end{bmatrix}$

观测概率矩阵 B (Let up = 1, down = 2, unchanged= 3):

B = ⎡ ⎣ ⎢ 0.7 0.1 0.3 0.1 0.6 0.3 0.2 0.3 04 ⎤ ⎦ ⎥

$B=\begin{bmatrix}0.7 & 0.1 & 0.2\\ 0.1& 0.6 &0.3 \\ 0.3 & 0.3 & 04\end{bmatrix}$

Note: Picture source

隐马尔可夫模型作了两个 基本假设（ $y_t$ 为t时刻的观测， $q_t$ 为t时刻的状态）：

$p(q_t|q_1,\ldots,q_{t-1},y_1,\ldots,y_{t-1})=p(q_t|q_{t-1})$
$p(y_t|q_1,\ldots,q_{t-1},q_t,y_1,\ldots,y_{t-1})=p(y_t|q_{t})$

对第一条假设的解释：隐藏的马尔可夫链在任意时刻t的状态只依赖于其 前一时刻 的状态，与其他时刻的状态及观测无关，也与时刻t无关；

对第二条假设的解释：任意时刻的观测只依赖于 该时刻 的马尔可夫链的状态，与其他观测及状态无关。

下面提出 HMM 的三个基本问题：

（记： $\lambda=(A,B,\pi)$ $Q=\{q_1,\ldots,q_T\}$ $Y=\{y_1,\ldots,y_T\}$ ）

概率计算问题（计算其产生观测序列的概率） $\Rightarrow$ 计算 $p(Y|\lambda)$
参数学习问题（训练模型使选取的参数能最好的描述观测数据） $\Rightarrow \ \lambda_{MLE}=\underset{\lambda }{argmax} \ p(Y|\lambda)$
解码(decoding)问题（找到与此观测序列最匹配的隐状态序列） $\Rightarrow \ \underset{Q}{argmax} \ p(Y|Q,\lambda)$

下面，我们主要讨论如何解决最常用到的前两个基本问题。

二、概率计算算法

1、直接计算法

p (Y | λ) = \sum q 1, \dots, q T = \sum q 1, \dots, q T (= \sum Q p (Y, Q | λ) = \sum Q p (Y | Q, λ) p (Q | λ) = \sum q 1, \dots, q T p (y 1, \dots, y T | q 1, \dots, q T; λ) p (q 1, \dots, q T | λ) b q 1 (y 1) \dots b q T (y T) \cdot p (q 1 | λ) p (q 2 | q 1, λ) p (q 3 | q 1, q 2, λ) \dots p (q T | q 1, \dots, q T - 1, λ) b q 1 (y 1) \dots b q T (y T)) \cdot (p (q 1 | λ) p (q 2 | q 1, λ) p (q 3 | q 2, λ) \dots p (q T | q T - 1, λ)) = \sum q 1, \dots, q T (b q 1 (y 1) \dots b q T (y T)) \cdot (π q 1 a q 1, q 2 \dots a q T - 1, T) = \sum q 1, \dots, q T π q 1 \prod t = 2 T a q t - 1, t b q t (y t) (1) (2) (3) (4) (5) (6) (7) (8) (9)

$\begin{align}p(Y|\lambda )&=\sum_Q \ p(Y,Q|\lambda)\\&=\sum_Q \ p(Y|Q,\lambda)\ p(Q|\lambda)\\& = \sum_{q_1,\ldots ,q_T} p(y_1,\ldots,y_T|q_1,\ldots,q_T;\lambda)p(q_1,\ldots,q_T|\lambda) \\= \sum_{q_1,\ldots ,q_T} & b_{q_1}(y_1)\ldots b_{q_T}(y_T) \cdot p(q_1|\lambda)p(q_2|q_1,\lambda)p(q_3|q_1,q_2,\lambda)\\&\ldots p(q_T|q_1,\ldots,q_{T-1} ,\lambda)\\= \sum_{q_1,\ldots ,q_T} ( &b_{q_1}(y_1)\ldots b_{q_T}(y_T)) \cdot (p(q_1|\lambda)p(q_2|q_1,\lambda)p(q_3|q_2,\lambda)\\&\ldots p(q_T|q_{T-1} ,\lambda) )\\&= \sum_{q_1,\ldots ,q_T} ( b_{q_1}(y_1)\ldots b_{q_T}(y_T)) \cdot (\pi_{q_1}a_{q1,q2}\ldots a_{q_{T-1,T}}) \\&=\sum_{q_1,\ldots ,q_T} \pi_{q_1} \prod_{t=2}^T a_{q_{t-1,t}}b_{q_t}(y_t) \end{align}$

但是这种方法的计算量很大，是 $O(TN^T)$ ，因此这种算法在实际不可行。

2、前向和后向算法

Note: Picture source

由上图定义了前向概率（左）和后向概率（右），前向概率描述了 $y_1$ 到 $y_t$ 和 t 时刻为第 $i$ 个状态时的联合分布，后向概率在已知t 时刻为第 $i$ 个状态时描述了 $y_{t+1}$ 到 $y_T$ 的联合分布；

前向算法：

t=1 时，
$\alpha_i(1)=p(y_1,q_1=i|\lambda)=p(q_1=i|\lambda)\ p(y_1|q_1=i,\lambda)=\pi_ib_i(y_1)$

t=2 时，

α j (1) = p (y 1, y 2, q 2 = j | λ) = \sum i = 1 k p (y 1, y 2, q 1 = i, q 2 = j | λ) = \sum i = 1 k p (q 1 = i) p (y 1 | q 1 = i) p (q 2 = j | q 1 = i) \cdot p (q 2 = j | q 1 = i) p (y 2 | q 2 = j) = [\sum i = 1 k α i (1) a i, j] b j (y 2) (33) (34) (35) (36) (37)

$\begin{align} \alpha_j(1)&=p(y_1,y_2,q_2=j|\lambda)\\& =\sum_{i=1}^k p(y_1,y_2,q_1=i,q_2=j|\lambda) \\&=\sum_{i=1}^k p(q_1=i)\ p(y_1|q_1=i)p(q_2=j|q_1=i) \\& \quad \ \cdot p(q_2=j|q_1=i)p(y_2|q_2=j) \\&=\left[\sum_{i=1}^k \alpha_i(1)a_{i,j} \right] b_j(y_2)\end{align}$

……

因此，t $\geq$ 2 时， $\alpha_j(t+1)=\left[\sum_{i=1}^k \alpha_i(t)a_{i,j} \right] b_j(y_{t+1})$

又显然有 $p(Y|\lambda)=\sum_{i=1}^k \alpha_i(T)$ ……（1）

下图可以直观地理解这个过程：

前向算法：

输入：模型参数 $\lambda$ ，观测 $Y$

输出： $p(Y|\lambda)$

(1) 初值

$α i (1) = π i b i (y 1)$ $\alpha_i(1)=\pi_ib_i(y_1)$

(2) 递推对 t=1,……,T-1

$α j (t + 1) = [\sum i = 1 k α i (t) a i, j] b j (y t + 1)$ $\alpha_j(t+1)=\left[\sum_{i=1}^k \alpha_i(t)a_{i,j} \right] b_j(y_{t+1})$

(3) 终止

$p (Y | λ) = \sum i = 1 k α i (T)$ $p(Y|\lambda)=\sum_{i=1}^k \alpha_i(T)$

后向算法：

t=T 时， $\beta_i(T)=1$

t=T-1 时，

β i (T - 1) = p (y T | q T - 1 = i) = \sum j = 1 k p (y T, q T = j | q T - 1 = i) = \sum j = 1 k p (q T = j | q T - 1 = i) p (y T | q T = j, q T - 1 = i) = \sum j = 1 k p (q T = j | q T - 1 = i) p (y T | q T = j) = \sum j = 1 k a i, j b j (y T) (15) (16) (17) (18) (19)

$\begin{align} \beta_i(T-1)&=p(y_T|q_{T-1}=i)\\&=\sum_{j=1}^k p(y_T,q_{T}=j|q_{T-1}=i) \\ & = \sum_{j=1}^k \ p(q_{T}=j|q_{T-1}=i)\ p(y_T|q_{T}=j,q_{T-1}=i)\\&= \sum_{j=1}^k \ p(q_{T}=j|q_{T-1}=i)\ p(y_T|q_{T}=j)\\&= \sum_{j=1}^k a_{i,j}b_j(y_T) \end{align}$

t=T-2 时，

β i (T - 2) = p (y T, y T - 1 | q T - 2 = i) = \sum j = 1 k p (y T, y T - 1, q T - 1 = j, q T = l | q T - 2 = i) = \sum j = 1 k \sum l = 1 k p (q T = j | q T - 1 = i) p (y T | q T = j) \cdot p (q T - 1 = j | q T - 2 = i) p (y T - 1 | q T - 1 = j) = \sum j = 1 k p (q T = j | q T - 1 = i) p (y T | q T = j) = \sum j = 1 k a i, j b j (y T - 1) β j (T - 1) (20) (21) (22) (23) (24) (25)

$\begin{align}\beta_i(T-2)&=p(y_T,y_{T-1}|q_{T-2}=i)\\&=\sum_{j=1}^k p(y_T,y_{T-1},q_{T-1}=j,q_{T}=l|q_{T-2}=i) \\ &= \sum_{j=1}^k \sum_{l=1}^k \ p(q_{T}=j|q_{T-1}=i)\ p(y_T|q_{T}=j)\cdot \\& \quad p(q_{T-1}=j|q_{T-2}=i)\ p(y_{T-1}|q_{T-1}=j)\\ &= \sum_{j=1}^k \ p(q_{T}=j|q_{T-1}=i)\ p(y_T|q_{T}=j)\\&= \sum_{j=1}^k a_{i,j}b_j(y_{T-1})\beta_j(T-1) \end{align}$

……

因此， $t\leq T-1$ 时：

β i (t) = \sum j = 1 k a i, j b j (y t + 1) β j (t + 1)

$\beta_i(t)= \sum_{j=1}^k a_{i,j}b_j(y_{t+1})\beta_j(t+1)$

又显然有 $p(Y|\lambda)=\sum_{i=1}^k \pi_i b_i(y_1) \beta_i(1)$ ……（2）

后向算法：

输入：模型参数 $\lambda$ ，观测 $Y$

输出： $p(Y|\lambda)$

(1) 初值

$β i (T) = 1$ $\beta_i(T)=1$

(2) 递推对 t=T-1,……,1

$β i (t) = \sum j = 1 k a i, j b j (y t + 1) β j (t + 1)$ $\beta_i(t)= \sum_{j=1}^k a_{i,j}b_j(y_{t+1})\beta_j(t+1)$

(3)终止

$p (Y | λ) = \sum i = 1 k π i b i (y 1) β i (1)$ $p(Y|\lambda)=\sum_{i=1}^k \pi_i b_i(y_1) \beta_i(1)$

前向算法和后向算法的统一

利用前面的定义可以将观测序列概率 $p(Y|\lambda)$ 统一：

p (Y | λ) = \sum i = 1 k \sum j = 1 k α i (t) a i, j b j (y t + 1) β j (t + 1) ， t = 1, \dots, T - 1

$p(Y|\lambda)=\sum_{i=1}^k \sum_{j=1}^k \alpha_i(t) a_{i,j}b_j(y_{t+1})\beta_j(t+1)，\quad t=1,\ldots,T-1$

此式当 t=1 和 t=T-1 时分别为式（1）和（2）。

特定状态的概率

给定模型 $\lambda$ 和观测 $Y$ ，在时刻 t 处于状态 $i$ 的概率如下；

$p(q_t=i|Y,\lambda)=\frac{p(Y,q_t=i|\lambda)}{p(Y|\lambda)}=\frac{p(Y,q_t=i|\lambda)}{\sum_{j=1}^k p(Y,q_t=j|\lambda)}=\frac{\alpha_i(t)\beta_i(t)}{\sum_{j=1}^k\alpha_i(t)\beta_i(t)}$

其中，

p (Y, q t = i | λ) = p (Y | q t = i, λ) p (q t = i | λ) = p (y 1, \dots, y t | q t = i) p (y t + 1, \dots, y T | q t = i) p (q t = i | λ) = p (y 1, \dots, y t, q t = i | λ) p (y t + 1, \dots, y T | q t = i) = α i (t) β i (t) (26) (27) (28) (29)

$\begin{align} p(Y,q_t=i|\lambda)&=p(Y|q_t=i,\lambda)p(q_t=i|\lambda) \\&=p(y_1,\ldots,y_t|q_t=i)p(y_{t+1},\ldots, y_T|q_t =i)p(q_t=i|\lambda) \\&=p(y_1,\ldots,y_t,q_t=i|\lambda)p(y_{t+1},\ldots, y_T|q_t =i)\\&=\alpha_i(t)\beta_i(t) \end{align}$

三、参数学习算法

根据训练数据是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习与非监督学习实现。但由于监督学习需要使用训练数据，而人工标注数据代价也往往很高，因此我们会利用非监督的学习方法来学习参数。

将观测序列数据看作观测数据 Y，状态序列数据看作不可观测的隐数据 Q，那么隐马尔可夫模型事实上是一个含有隐变量的概率模型 :

p (Y | λ) = \sum Q p (Y | Q, λ) p (Q | λ)

$p(Y|\lambda )=\sum_Q \ p(Y|Q,\lambda)\ p(Q|\lambda)$

我们先回顾一下EM算法：EM算法推导（收敛性证明和在GMM中的应用）

在 HMM 中，我们可以写成如下：

λ (g + 1) = a r g m a x λ (\int q l n (p (Y, q | λ)) p (q | Y, λ (g))) = a r g m a x λ (\int q l n (p (Y, q | λ)) p ( q , Y | λ ( g ) ) p ( Y | λ ( g ) )) = a r g m a x λ (\int q l n (p (Y, q | λ)) p (q, Y | λ (g))) (30) (31) (32)

$\begin{align} \lambda^{(g+1)}&=\underset{\lambda}{argmax }\left(\int_q ln(p(Y,q|\lambda))p(q|Y,\lambda^{(g)}) \right)\\&=\underset{\lambda}{argmax }\left(\int_q ln(p(Y,q|\lambda))\frac{p(q,Y|\lambda^{(g)})}{p(Y|\lambda^{(g)})}\right)\\&=\underset{\lambda}{argmax }\left(\int_q ln(p(Y,q|\lambda)) p(q,Y|\lambda^{(g)})\right) \end{align}$

（ $p(Y|\lambda^{(g)})$ 为常数，因此可以省略）

E step:

求 Q 函数，见如下：

Q (λ, λ (g)) = \int q l n (p (Y, q | λ)) p (q, Y | λ (g)) = \sum q 1, \dots, q T (l n π q 1) p (q, Y | λ (g)) + \sum q 1, \dots, q T (\sum t = 1 T l n a q t - 1, q t) p (q, Y | λ (g)) + \sum q 1, \dots, q T (\sum t = 1 T l n b q t (y t)) p (q, Y | λ (g))

$Q(\lambda,\lambda^{(g)})=\int_q ln(p(Y,q|\lambda)) p(q,Y|\lambda^{(g)})\\=\sum_{q_1,\ldots,q_T} \left( ln\pi_{q_1} \right)p(q,Y|\lambda^{(g)})+\sum_{q_1,\ldots,q_T} \left( \sum_{t=1}^T lna_{q_{t-1},q_t} \right)p(q,Y|\lambda^{(g)})\\\quad+ \sum_{q_1,\ldots,q_T} \left( \sum_{t=1}^T lnb_{q_t}(y_t) \right)p(q,Y|\lambda^{(g)})$

M step:

极大化 Q 函数，求模型参数 A,B, $\pi$ ；

观察上述 Q 函数，要极大化的参数分别单独地出现在3个项中，所以只需对各项分别极大化；

（1）第一项可以写出：

\sum q 1, \dots, q T (l n π q 1) p (q, Y | λ (g)) = \sum i = 1 k (l n π i) p (q 1 = i, Y | λ (g))

$\sum_{q_1,\ldots,q_T} \left( ln\pi_{q_1} \right)p(q,Y|\lambda^{(g)})=\sum_{i=1}^{k} \left( ln\pi_{i} \right)p(q_1=i,Y|\lambda^{(g)})$

s . t . \sum i = 1 k π i = 1

$s.t. \quad \sum_{i=1}^{k} \pi_i=1$

利用拉格朗日乘子法，即可求解；

π i = p ( q 1 = i , Y | λ ( g ) ) \sum k i = 1 p ( q 1 = i , Y | λ ( g ) )

$\pi_i=\frac{p(q_1=i,Y|\lambda^{(g)})}{ \sum_{i=1}^{k} p(q_1=i,Y|\lambda^{(g)})}$

（1）第二项可以写出：

\sum q 1, \dots, q T (\sum t = 1 T l n a q t - 1, q t) p (q, Y | λ (g)) = \sum i = 1 k \sum j = 1 k \sum t = 1 T l n a i, j p (q t - 1 = i, q t = j, Y | λ (g))

$\sum_{q_1,\ldots,q_T} \left( \sum_{t=1}^T lna_{q_{t-1},q_t} \right)p(q,Y|\lambda^{(g)})\\=\sum_{i=1}^k\sum_{j=1}^k\sum_{t=1}^T lna_{i,j}\ p(q_{t-1}=i,q_t=j,Y|\lambda^{(g)})$

s . t . \sum i = 1 k a i j = 1

$s.t. \quad \sum_{i=1}^{k} a_{ij}=1$

同样利用拉格朗日乘子法，即可求解：

a i, j = \sum T t = 1 p ( q t - 1 = i , q t = j , Y | λ ( g ) ) \sum T t = 1 p ( q t - 1 = i , Y | λ ( g ) )

$a_{i,j}=\frac{\sum_{t=1}^T p(q_{t-1}=i,q_t=j,Y|\lambda^{(g)})}{ \sum_{t=1}^T p(q_{t-1}=i,Y|\lambda^{(g)})}$

（3）第二项可以写出：

\sum q 1, \dots, q T (\sum t = 1 T l n b q t (y t)) p (q, Y | λ (g)) = \sum j = 1 k \sum t = 1 T (l n b j (y t)) p (q t = j, Y | λ (g))

$\sum_{q_1,\ldots,q_T} \left( \sum_{t=1}^T lnb_{q_t}(y_t) \right)p(q,Y|\lambda^{(g)})\\= \sum_{j=1}^k\sum_{t=1}^T \left( lnb_{j}(y_t) \right)p(q_t=j,Y|\lambda^{(g)})$

s . t . \sum i = 1 k b j (y t) = 1

$s.t.\quad \sum_{i=1}^{k} b_{j}(y_t)=1$

同样利用拉格朗日乘子法，即可求解（注意：只有在 $y_t=v_l$ 时，偏导数才不为0）：

b j (y t = v l) = \sum T t = 1 p ( q t = j , Y = v l | λ ( g ) ) \sum T t = 1 p ( q t = j , Y | λ ( g ) )

$b_j(y_t=v_l)=\frac{\sum_{t=1}^T p(q_t=j,Y=v_l|\lambda^{(g)})}{\sum_{t=1}^T p(q_t=j,Y|\lambda^{(g)})}$

上面的 EM 算法又称为 Baum-Welch 算法。

Baum-Welch 算法：

输入：观测序列Y

(1) 初始化 $\lambda_0=(A^{(0)},B^{(0)},\pi^{(0)})$

(2) 递推直至EM算法收敛

$π (g + 1) i = p ( q 1 = i , Y | λ ( g ) ) \sum k i = 1 p ( q 1 = i , Y | λ ( g ) )$ $\pi_i^{(g+1)}=\frac{p(q_1=i,Y|\lambda^{(g)})}{ \sum_{i=1}^{k} p(q_1=i,Y|\lambda^{(g)})}$

$a (g + 1) i, j = \sum T t = 1 p ( q t - 1 = i , q t = j , Y | λ ( g ) ) \sum T t = 1 p ( q t - 1 = i , Y | λ ( g ) )$ $a_{i,j}^{(g+1)}=\frac{\sum_{t=1}^T p(q_{t-1}=i,q_t=j,Y|\lambda^{(g)})}{ \sum_{t=1}^T p(q_{t-1}=i,Y|\lambda^{(g)})}$

$b j (l) (g + 1) = \sum T t = 1 p ( q t = j , Y = v l | λ ( g ) ) \sum T t = 1 p ( q t = j , Y | λ ( g ) )$ $b_j(l)^{(g+1)}=\frac{\sum_{t=1}^T p(q_t=j,Y=v_l|\lambda^{(g)})}{\sum_{t=1}^T p(q_t=j,Y|\lambda^{(g)})}$

(3) 终止。得到参数 $\lambda^{(n+1)}=(A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$