隐马尔可夫模型（HHM）学习笔记1

最新推荐文章于 2023-02-20 21:08:54 发布

MaaaMalik

最新推荐文章于 2023-02-20 21:08:54 发布

阅读量1k

点赞数

文章标签： HMM

本文链接：https://blog.csdn.net/MaaaMalik/article/details/90296943

版权

隐马尔可夫模型简介

整理了李航和周志华书上的内容。
将隐马尔可夫模型中的变量分为两组：一组为状态变量 $\left\{ {{y_1},{y_2}, \ldots ,{y_T}} \right\}$ ，其中 ${y_i} \in {\Bbb Y}$ 表示第 $i$ 时刻的系统状态，通常这个状态变量是隐藏的、不可观测的，因此状态变量也被称为隐变量。第二组变量是观测变量 $\left\{ {{x_1},{x_2}, \ldots ,{x_n}} \right\}$ ，其中 ${x_i} \in {\Bbb X}$ 表示第 $i$ 时刻的观测值。状态变量 ${y_i}$ 在多个状态 $\left\{ {{s_1},{s_2}, \ldots, {x_N}} \right\}$ 之间切换，即 ${\Bbb Y}$ 的取值范围是 $\left\{ {{s_1},{s_2}, \ldots ,{s_N}} \right\}$ ；观测变量在多个状态 $\left\{ {{o_1},{o_2}, \ldots ,{o_M}} \right\}$ 之间切换，即 ${\Bbb X}$ 的取值范围是 $\left\{ {{o_1},{o_2}, \ldots ,{o_M}} \right\}$ 。

如图表示了变量之间的依赖关系。在任意时刻，观测变量的取值仅依赖状态变量，即 $x_t$ 仅由 $y_t$ 确定，与其他状态变量的取值无关。同时， $t$ 时刻的状态变量仅依赖于 $t - 1$ 时刻的状态 ${y_{t-1}}$ ，与其余的状态变量无关。这就是“马尔科夫链”：系统的下一时刻的状态仅由当前状态决定，不依赖以往的任何状态。
除此之外，确定一个马尔科夫模型还需要三组参数：初始状态概率、状态转移概率以及输出观测概率。

初始状态概率：模型在初始时刻状态变量 $y_1$ 为各个状态的概率，记为 ${\Pi } = \left( {{\pi _1},{\pi _2}, \ldots ,{\pi _N}} \right)$ ，其中 ${\pi _i} = P\left( {{y_1} = s{}_i} \right),1 \leqslant i \leqslant N$ 表示模型的初始状态为 ${s{}_i}$ 的概率。下文中也表示为 ${\pi _{{y_1}}} = P({y_1} = {s_i}),1 \leqslant i \leqslant N$ 。
状态转移概率：状态变量在各个状态转换的概率，记为矩阵 ${\bf{A}} = {\left[ {{a_{ij}}} \right]_{N \times N}}$ ，其中 ${a_{ij}} = P\left( {{y_{t + 1}} = {s_j}|{y_t} = {s_i}} \right),1 \leqslant i,j \leqslant N$ 表示任意时刻 $t$ ，若状态为 ${{s_i}}$ ，则观测 ${o_j}$ 被获取的概率。下文中下标 $i j$ 会视情况而灵活变化，当 $i$ 变为 $y_t$ 时，表示此时的状态变量 $y_t=s_i$ ；当 $j$ 变为 $x_t$ 时，表示此时的观测变量 $x_t=o_j$ 。
输出观测概率：在当前状态变量的前提下获取各个观测值的概率，记为矩阵 ${\bf{B}} = {\left[ {{b_{ij}}} \right]_{N \times M}}$ ，其中 ${b_{ij}} = P\left( {{x_t} = {o_j}|{y_t} = {s_i}} \right),1 \leqslant i \leqslant N,1 \leqslant j \leqslant M$ 表示任何时刻 $t$ ，若状态为 ${{s_i}}$ ，则观测值 ${{o_j}}$ 被获取的概率。下文中下标 $i j$ 会视情况而灵活变化，当 $i$ 变为 $y_t$ 时，表示该时刻的状态变量 $y_t=s_i$ ；当 $j$ 变为 $x_t$ 时，表示该时刻的状态变量 $x_t=s_j$ 。
在确定了状态空间 ${\Bbb Y}$ 、观测空间 ${\Bbb X}$ 和上述三组参数之后就确定了一个隐马尔可夫模型 ${\bf{\lambda }} = \left[ {{\bf{A}},{\bf{B}},\Pi } \right]$ ，它按如下过程产生观测序列 $\left\{ {{x_1},{x_2}, \ldots, {x_T}} \right\}$ ：
1）设置 $t = 1$ ，根据初始状态概率 $\Pi$ 选择初始状态 $y_1$ ；
2）根据状态 $y_t$ 和输出观测概率 $\bf{B}$ 选择观测变量取值 $x_t$ ；
3）根据状态 $y_t$ 和状态转移矩阵 $\bf{A}$ 转移模型状态，即确定 $y_{t+1}$ ；
4）若 $t < T$ ，设置 $t = t + 1$ ，并转到第2步，否则停止。

隐马尔可夫模型的三个基本问题：
1）给定模型 ${\bf{\lambda }} = \left[ {{\bf{A}},{\bf{B}},\Pi } \right]$ ，如何计算观测序列 ${\bf x}=\left\{ {{x_1},{x_2}, \cdots ,{x_T}} \right\}$ 的概率 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ ，即如何评估模型与观测序列的匹配度？
2）给定模型 ${\bf{\lambda }} = \left[ {{\bf{A}},{\bf{B}},\Pi } \right]$ 和观测序列 $x=\left\{ {{x_1},{x_2}, \cdots ,{x_T}} \right\}$ ，如何找到与此观测序列最为匹配的状态序列 ${\bf y}=\left\{ {{y_1},{y_2}, \cdots ,{y_T}} \right\}$ ，即如何根据观测序列推断出隐藏的模型状态？
3）给定观测序列 ${\bf x}=\left\{ {{x_1},{x_2}, \cdots, {x_T}} \right\}$ ，如何调整模型参数 ${\bf{\lambda }} = \left[ {{\bf{A}},{\bf{B}},\Pi } \right]$ 使得该序列出现的概率 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ 最大，即如何训练模型？

概率计算算法

直接计算法

给定模型为 ${\bf{\lambda }} = \left[ {{\bf{A}},{\bf{B}},\Pi } \right]$ 和观测序列 ${\bf x}=\left\{ {{x_1},{x_2}, \cdots, {x_T}} \right\}$ 。对于状态序列 ${\bf y}=\left\{ {{y_1},{y_2}, \cdots ,{y_T}} \right\}$ ，每个时刻的状态变量 $y_t$ 都有 $\left\{ {{s_1},{s_2}, \ldots, {x_N}} \right\}$ N种可能，直接计算法就是列举所有的 ${\bf y}$ 序列（共 ${N^T}$ 种序列），然后对所有可能的状态序列求和，得到 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ 。
某一状态序列 ${\bf y}=\left\{ {{y_1},{y_2}, \cdots ,{y_T}} \right\}$ 的概率是 $P\left( {{\bf{y}}|{\bf{\lambda }}} \right) = {\pi _{{y_1}}}{a_{{y_1}{y_2}}}{a_{{y_2}{y_3}}} \cdots {a_{{y_{T - 1}}{y_T}}}$ ，以此为前提的观测序列是 ${\bf x}=\left\{ {{x_1},{x_2}, \cdots, {x_T}} \right\}$ 的概率是 $P\left( {{\bf{x|y,\lambda }}} \right) = {b_{{y_1}{x_1}}}{b_{{y_2}{x_2}}} \cdots {b_{{y_T}{x_T}}}$ ， ${\bf{x}}$ 和 ${\bf{y}}$ 同时出现的联合概率为 $P\left( {{\bf{x,y}}|{\bf{\lambda }}} \right) = P\left( {{\bf{x}}|{\bf{y}},{\bf{\lambda }}} \right)P\left( {{\bf{y}}|{\bf{\lambda }}} \right) = {\pi _{{y_1}}}{b_{{y_1}{x_1}}}{a_{{y_1}{y_2}}}{b_{{y_2}{x_2}}} \cdots {a_{{y_{T - 1}}{y_T}}}{b_{{y_T}{x_T}}}$ 。对所有的状态序列 ${\bf y}$ （共 ${N^T}$ 种序列）求和，得到观测序列 ${\bf x}$ 的概率 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ ，即 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right) = \sum\limits_{\bf{y}} {P\left( {{\bf{x}}|{\bf{y}},{\bf{\lambda }}} \right)P\left( {{\bf{y}}|{\bf{\lambda }}} \right)} = \sum\limits_{{{\bf{y}}_{\bf{1}}}{\bf{,}}{{\bf{y}}_{\bf{2}}}{\bf{,}} \cdots {\bf{,}}{{\bf{y}}_{\bf{T}}}} {{\pi _{{y_1}}}{b_{{y_1}{x_1}}}{a_{{y_1}{y_2}}}{b_{{y_2}{x_2}}} \cdots {a_{{y_{T - 1}}{y_T}}}{b_{{y_T}{x_T}}}}$ 直接法计算量极大，是 $O\left( {T{N^T}} \right)$ 阶的。有效算法：前向-后向算法。

前向算法

前向概率：给定隐马尔可夫模型 ${\bf{\lambda }}$ ，定义到时刻 $t$ 部分观测序列为 ${x_1},{x_2}, \cdots ,{x_t}$ 且状态为 ${s_i}$ 的概率为前向概率，记作 ${\alpha _t}\left( i \right) = P\left( {{x_1},{x_2}, \cdots ,{x_t},{y_t} = {s_i}|{\bf{\lambda }}} \right)$ 可以递推地前向概率 ${\alpha _t}\left( i \right)$ 及观测序列概率 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ 。
算法：
1）初值： ${\alpha _1}\left( i \right) = {\pi _i}{b_{i{x_1}}},i = 1,2, \cdots ,N$ .
2）递推：对于 $\cdots ,T - 1$ ， ${\alpha _{t + 1}}\left( i \right) = \left[ {\sum\limits_{j = 1}^N {{\alpha _{t}}\left( j \right){a_{ji}}} } \right]{b_{i{x_{t + 1}}}},i = 1,2, \cdots ,N$ .
3）终止： $P\left( {{\bf{x}}|{\bf{\lambda }}} \right) = \sum\limits_{i = 1}^N {{\alpha _T}\left( i \right)}$
例：
考虑盒子和球模型 ${\bf{\lambda }} = \left( {{\bf{A}},{\bf{B}},{\bf{\pi }}} \right)$ ，状态集合 $\left\{ {1,2,3} \right\}$ ，观测集合 $\left\{红 ,白 \right\}$
${\bf{A}}=\left[ \begin{matrix}0.5 & 0.2 & 0.3 \\0.3 & 0.5 & 0.2 \\0.2 & 0.3 & 0.5\end{matrix}\right],{\bf{B}}=\left[ \begin{matrix}0.5 & 0.5 \\0.4 & 0.6 \\0.7 & 0.3 \end{matrix}\right],\Pi={\left( {0.2,0.4,0.4} \right)^T}$ 设 $T = 3$ ,观测序列 ${\bf{x}} = \left\{ {红,白,红} \right\}$ 。
$\begin{matrix}&{s_1}&{s_2}&{s_3}\\{s_1}&0.5 & 0.2 & 0.3 \\{s_2}&0.3 & 0.5 & 0.2 \\{s_3}&0.2 & 0.3 & 0.5\end{matrix}\qquad \begin{matrix}&{o_1}&{o_2}&\\{s_1}&0.5 & 0.5 \\{s_2}&0.4 & 0.6 \\{s_3}&0.7 & 0.3 \end{matrix}$
1）计算初值（ $t = 1$ ）
${\alpha _1}\left( 1 \right) = {\pi _1}{b_{1{x_1}}} = 0.2 \times 0.5 = 0.10$ ${\alpha _1}\left( 2 \right) = {\pi _2}{b_{2{x_1}}} = 0.4 \times 0.4 = 0.16$ ${\alpha _1}\left( 3 \right) = {\pi _3}{b_{3{x_1}}} = 0.4 \times 0.7 = 0.28$
2）递推计算
$t = 2 :$
${\alpha _2}\left( 1 \right) = \left[ {\sum\limits_{i = 1}^3 {{\alpha _1}\left( i \right){a_{i1}}} } \right]{b_{1{x_2}}} = \left( {0.10 \times 0.5 + 0.16 \times 0.3 + 0.28 \times 0.2} \right) \times 0.5 = 0.077$ ${\alpha _2}\left( 2 \right) = \left[ {\sum\limits_{i = 1}^3 {{\alpha _1}\left( i \right){a_{i2}}} } \right]{b_{2{x_2}}} = \left( {0.10 \times 0.2 + 0.16 \times 0.5 + 0.28 \times 0.3} \right) \times 0.6 = 0.1104$ ${\alpha _2}\left( 3 \right) = \left[ {\sum\limits_{i = 1}^3 {{\alpha _1}\left( i \right){a_{i3}}} } \right]{b_{3{x_2}}} = \left( {0.10 \times 0.3 + 0.16 \times 0.2 + 0.28 \times 0.5} \right) \times 0.3 = 0.0606$
$t = 3 :$
${\alpha _3}\left( 1 \right) = \left[ {\sum\limits_{i = 1}^3 {{\alpha _2}\left( i \right){a_{i1}}} } \right]{b_{1{x_3}}} = \left( {0.077 \times 0.5 + 0.1104 \times 0.3 + 0.0606 \times 0.2} \right) \times 0.5 = 0.04187$ ${\alpha _3}\left( 2 \right) = \left[ {\sum\limits_{i = 1}^3 {{\alpha _2}\left( i \right){a_{i2}}} } \right]{b_{2{x_3}}} = \left( {0.077 \times 0.2 + 0.1104 \times 0.5 + 0.0606 \times 0.3} \right) \times 0.4 = 0.035512$ ${\alpha _3}\left( 3 \right) = \left[ {\sum\limits_{i = 3}^3 {{\alpha _2}\left( i \right){a_{i3}}} } \right]{b_{3{x_3}}} = \left( {0.077 \times 0.3 + 0.1104 \times 0.2 + 0.0606 \times 0.5} \right) \times 0.5 = 0.052836$
3）终止 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right) = \sum\limits_{i = 1}^3 {{\alpha _3}\left( i \right) = 0.04187 + 0.35512 + 0.052836 = 0.130218}$
这一部分的Java实现。

后向算法

后向概率：给定隐马尔可夫模型 ${\bf{\lambda }}$ ，定义到时刻 $t$ 状态变量为 ${s_i}$ 的条件下，从 $t + 1$ 到 $T$ 的观测序列为 ${x_{t + 1}},{x_{t + 2}}, \cdots {x_T}$ 的概率为后向概率，记作 ${\beta _t}\left( i \right) = P\left( {{x_{t + 1}},{x_{t + 2}}, \cdots, {x_T}|{y_t} = {s_i},{\bf{\lambda }}} \right)$ 可以递推后向概率 ${\beta _t}$ 及观测序列概率 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right)$ 。
1）初值： ${\beta _T}\left( i \right) = 1,i = 1,2, \cdots ,N$
2）递推：对 $\cdots ,1$ ${\beta _t}\left( i \right) = \sum\limits_{j = 1}^N {{a_{ij}}{b_{j{x_{t + 1}}}}{\beta _{t + 1}\left( j \right)},i = 1,2, \cdots ,N}$
3）终止： $P\left( {{\bf{x}}|{\bf{\lambda }}} \right) = \sum\limits_{i = 1}^N {{\pi _i}{b_{i{x_1}}}{\beta _1}\left( i \right)}$
例：
模型同上。
1）计算初值（ $t = 3$ ） ${\beta _3}\left( 1 \right) = 1,{\beta _3}\left( 2 \right) = 1,{\beta _3}\left( 3 \right) = 1$
2）递推计算
$t = 2 :$ ${\beta _2}\left( 1 \right) = \sum\limits_{j = 1}^3 {{a_{1j}}{b_{j{x_3}}}{\beta _3}\left( j \right)} = 0.5 \times 0.5 \times 1 + 0.2 \times 0.4 \times 1 + 0.3 \times 0.7 \times 1 = 0.54$ ${\beta _2}\left( 2 \right) = \sum\limits_{j = 1}^3 {{a_{2j}}{b_{j{x_3}}}{\beta _3}\left( j \right)} = 0.3 \times 0.5 \times 1 + 0.5 \times 0.4 \times 1 + 0.2 \times 0.7 \times 1 = 0.49$ ${\beta _2}\left( 3 \right) = \sum\limits_{j = 1}^3 {{a_{3j}}{b_{j{x_3}}}{\beta _3}\left( j \right)} = 0.2 \times 0.5 \times 1 + 0.3 \times 0.4 \times 1 + 0.5 \times 0.7 \times 1 = 0.57$
$t = 1 :$ ${\beta _1}\left( 1 \right) = \sum\limits_{j = 1}^3 {{a_{1j}}{b_{j{x_2}}}{\beta _2}\left( j \right)} = 0.5 \times 0.5 \times 0.54 + 0.2 \times 0.6 \times 0.49 + 0.3 \times 0.3 \times 0.57 = 0.2451$ ${\beta _1}\left( 2 \right) = \sum\limits_{j = 1}^3 {{a_{2j}}{b_{j{x_2}}}{\beta _2}\left( j \right)} = 0.3 \times 0.5 \times 0.54 + 0.5 \times 0.6 \times 0.49 + 0.2 \times 0.3 \times 0.57 = 0.2622$ ${\beta _1}\left( 3 \right) = \sum\limits_{j = 1}^3 {{a_{3j}}{b_{j{x_2}}}{\beta _2}\left( j \right)} = 0.2 \times 0.5 \times 0.54 + 0.3 \times 0.6 \times 0.49 + 0.5 \times 0.3 \times 0.57 = 0.2277$
3）终止 $P\left( {{\bf{x}}|{\bf{\lambda }}} \right) = 0.2 \times 0.5 \times 0.2451 + 0.4 \times 0.4 \times 0.2622 + 0.4 \times 0.7 \times 0.2277 = 0.130218$
前向算法和后向算法的计算量都是 $O\left( {{N^2}T} \right)$ 阶的，可以将前向算法和后向算法统一写成 $P\left( {x|\lambda } \right) = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _t}\left( i \right){a_{ij}}{b_{j{x_{t + 1}}}}{\beta _{t + 1}}\left( j \right)} ,t = 1,2, \cdots ,T - 1}$
这一部分的Java实现。

一些概率与期望值的计算

1.给定模型 $\lambda$ 和观测 ${\bf{x}}$ ，在时刻 $t$ 处于状态 $s_i$ 的概率，记 ${\gamma _t}\left( i \right) = P\left( {{y_t} = {s_i}|{\bf{x,\lambda }}} \right)$ 。
由前后向概率，有 ${\alpha _t}\left( i \right){\beta _t}\left( i \right) = P\left( {{y_t} = {s_i},{\bf{x}}|{\bf{\lambda }}} \right)$ 。于是有： ${\gamma _t}\left( i \right) = P\left( {{y_t} = {s_i}|{\bf{x,\lambda }}} \right) = \frac{{P\left( {{y_t} = {s_i},{\bf{x}}|{\bf{\lambda }}} \right)}}{{P\left( {{\bf{x}}|{\bf{\lambda }}} \right)}} = \frac{{{\alpha _t}\left( i \right){\beta _t}\left( i \right)}}{{\sum\limits_{j = 1}^N {{\alpha _t}\left( j \right){\beta _t}\left( j \right)} }}$
2.给定模型 $\lambda$ 和观测 ${\bf{x}}$ ，在时刻 $t$ 处于状态 $s_i$ 且在时刻 $t + 1$ 处于状态 $s_j$ 的概率，记 ${\xi _t}\left( {i,j} \right) = P\left( {{y_t} = {s_i},{y_{t + 1}} = {s_j}|{\bf{x}},{\bf{\lambda }}} \right)$ 。由前后向概率，有 ${\alpha _t}\left( i \right){a_{ij}}{b_{j{x_{t + 1}}}}{\beta _{t + 1}}\left( j \right) = P\left( {{y_t} = {s_i},{y_{t + 1}} = {s_j}|{\bf{x}},{\bf{\lambda }}} \right)$ 。于是有 ${\xi _t}\left( {i,j} \right) = \frac{{P\left( {{y_t} = {s_i},{y_{t + 1}} = {s_j},{\bf{x}}|{\bf{\lambda }}} \right)}}{{P\left( {{\bf{x}}|{\bf{\lambda }}} \right)}} = \frac{{{\alpha _t}\left( i \right){a_{ij}}{b_{j{x_{t + 1}}}}{\beta _{t + 1}}\left( j \right)}}{{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _t}\left( i \right){a_{ij}}{b_{j{x_{t + 1}}}}{\beta _{t + 1}}\left( j \right)} } }}$
3.将 ${\gamma _t}\left( i \right)$ 和 ${\xi _t}\left( {i,j} \right)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值：
1）在观测 ${\bf{x}}$ 下状态 $s_i$ 出现的期望值为 $\sum\limits_{t = 1}^T {{\gamma _t}\left( i \right)}$ 。
2）在观测 ${\bf{x}}$ 下由状态 $s_i$ 转移的期望值为 $\sum\limits_{t = 1}^T {{\gamma _t}\left( i \right)}$ 。
3）在观测 ${\bf{x}}$ 下由状态 $s_i$ 转移到状态 $s_j$ 的期望值 $\sum\limits_{t = 1}^T {{\xi _t}\left( {i,j} \right)}$ 。
这些将在HMM的训练中被用到。
下一篇《EM算法》