数据挖掘——马尔科夫模型

REGRET ER

已于 2022-07-07 12:33:10 修改

阅读量391

点赞数

分类专栏： Data Mining 文章标签：数据挖掘人工智能机器学习

于 2022-04-15 12:59:05 首次发布

本文链接：https://blog.csdn.net/asybk/article/details/124192317

版权

Data Mining 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了马尔科夫模型的一阶概念，随后深入剖析了隐马尔可夫模型（HMM），包括其结构、评估、解码和学习方法，如前向算法、Viterbi算法和Baum-Welch算法。通过实例演示，展示了如何在实际场景中使用HMM解决概率计算和序列分析问题。

摘要由CSDN通过智能技术生成

HWW算法

1. 马尔科夫模型

一个马尔科夫过程是状态间的转移仅依赖于前 $\mathcal{N}$ 个状态的过程。这个过程被称之为 $\mathcal{N}$ 阶马尔科夫模型，其中 $\mathcal{N}$ 是影响下一个状态选择的状态数量。最简单的马尔科夫过程是一阶模型，它的状态选择仅与前一个状态有关。这里要注意它与确定性系统并不相同，因为下一个状态的选择由相应的概率决定，并不是确定性的。
定义一个一阶马尔科夫过程如下：

状态：三个状态——晴天，多云，雨天。
$\varPi$ 向量：定义系统初始化时每一个状态的概率。
状态转移矩阵：给定前一天天气情况下的当前天气概率。

2. 隐马尔科夫模型

包含了一个底层隐藏的随时间改变的马尔科夫过程，以及一个与隐藏状态某种程度相关的可观察到的状态集合。

我们使用一个隐马尔科夫模型（HMM）对这些例子建模。这个模型包含两组状态集合和三组概率集合：

隐藏状态：一个系统的（真实）状态，可以由一个马尔科夫过程进行描述（例如，天气）
$\varPi$ 向量：包含了（隐）模型在时间t=1时一个特殊的隐藏状态的概率（初始概率）
状态转移矩阵：包含了一个隐藏状态到另一个隐藏状态的概率
观察状态：在这个过程中‘可视’的状态（例如，海藻的湿度）
混淆矩阵：包含了给定隐马尔科夫模型的某一个特殊的隐藏状态，观察到的某个观察状态的概率

公式化：
一个隐马尔科夫模型是一个三元组（pi, A, B）:

$\varPi = ( \pi_i )$ ：初始化概率向量
$A = ( a_{ij} )$ : 状态转移矩阵 $Pr\ (x_{i_t} | x_{j_{t-1}})$
$B = ( b_{ij} )$ : 混淆矩阵 $Pr\ (y_i | x_j)$

2.1. 需要解决的问题：

（评估）： 给定HMM，求一个观察序列的概率。—— 前向算法
（解码）： 给定HMM，搜索最有可能生成一个观察序列的隐藏状态序列。—— Viterbi 算法
（学习）： 给定观察序列，生成一个HMM。—— Baum-Welch算法

2.2. 前向算法：

已知HMM的参数和观察到的状态序列为 $O$ ，求产生该状态序列的概率：设 $\alpha_t(j)$ 表示 $t$ 时刻隐藏状态为 $j$ 的概率， $\beta_t(k)$ 表示 $t$ 时刻观察状态为 $j$ 的概率。
$\alpha_{t}(j) = P(o_1,...,o_t, S_t=j | \lambda )$

$\alpha_{t}(j) = \begin{cases} \sum_{i=1}^n \alpha_{t-1}(i)a_{ji}, t > 1 \\ \pi_j, t = 1\\ \end{cases}$

$\beta_{t}(k) = \sum_{i=1}^n \alpha_{t}(i)b_{ki}$

2.3. Viterbi 算法：

已知HMM的参数和观察到的状态序列为 $O$ ，求最可能产生该状态序列的隐藏序列 $S$ ，即要找到这样的隐藏序列，使得下面的后验概率最大：
$\begin{aligned} P(S|O) &= \frac{P(S)P(O|S)}{P(O)}\\ &=\pi_{s_1}b_{o_1s_1}\prod_{t=2}^Ta_{s_ts_{t-1}}b_{o_ts_t} \end{aligned}$
设 $\alpha_t(j)$ 表示 $t$ 时刻隐藏状态为 $j$ 时，从某个隐藏状态序列产生观察序列 $O$ 的最大概率：
$\alpha_{t}(j) = \begin{cases} \underset{i}{max}(\ \alpha_{t-1}(i)a_{ji}b_{o_tj}\ ), t > 1 \\ \pi_jb_{o_tj}, t = 1\\ \end{cases}$
不断迭代，算出所有的 $\alpha_t(j)$ ，同时记录每个 $\alpha_t(j)$ 对应的上一个时刻的隐藏状态。算到最后一个时刻时，取最大的 $\alpha_T(j)$ 并回溯得到隐藏序列。

2.4. Baum-Welch算法：

对于给定的观测序列 $O$ ，如何估计模型参数使得 $P(O|\lambda)$ 最大。对于该问题，目前还没有能找到全局最优解的方法，但是Baum-Welch算法能找到局部最优。
前向概率：
$\alpha_{t}(j) = P(o_1,...,o_t, s_t=j | \lambda )$
后向概率：
$\beta_{t}(j) = P(o_{t+1},...,o_T | s_t=j, \lambda )$
则：
$\begin{aligned} P(O,s_t=j|\lambda) &= P(o_1,...,o_t,o_{t+1},...,o_T, s_t=j | \lambda) \\ &= P(o_1,...,o_t,s_t=j|\lambda)P(o_{t+1},...,o_T|o_1,...,o_t,s_t=j,\lambda) \\ &= P(o_1,...,o_t,s_t=j|\lambda)P(o_{t+1},...,o_T|s_t=j,\lambda) \\ &=\alpha_{t}(j)\beta_{t}(j) \end{aligned}$

要使如下概率最大
$P(O|\lambda) = \sum_{S}P(O, S|\lambda)P(S|\lambda)$

EM算法E步：
$Q(\lambda, \hat{\lambda}) = \sum_{S}logP(O, S|\lambda)P(O, S|\hat{\lambda})$
其中， $\hat{\lambda}$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可夫模型参数。
由于 $S|\lambda) = \pi_{s_1}b_{o_1s_1}\prod_{t=2}^Ta_{s_ts_{t-1}}b_{o_ts_t}$ ，则 $Q(\lambda|\hat{\lambda})$ 可展开为：
$\begin{aligned} Q(\lambda, \hat{\lambda}) &= \sum_{S}log\pi_{s_1}P(O, S|\hat{\lambda}) \\ &\quad + \sum_{S}(\sum_{t=2}^Tlog a_{s_ts_{t-1}} )P(O, S|\hat{\lambda}) \\ &\quad + \sum_{S}(\sum_{t=1}^Tlog b_{o_ts_t} )P(O, S|\hat{\lambda}) \end{aligned}$
EM算法M步：
利用拉格朗日和偏导可得：
$\pi_j = \frac{P(O,s_1=j|\hat{\lambda})}{P(O|\hat{\lambda})}$
$a_{ij} = \frac{\sum_{t=2}^TP(O, s_t=i, s_{t-1}=j|\hat{\lambda})}{\sum_{t=2}^T P(O, s_{t-1}=j |\hat{\lambda})}$
$b_{kj} = \frac{\sum_{t=1}^TP(O, s_t=j|\hat{\lambda}) I(o_t=k)}{\sum_{t=1}^T P(O, s_t=j |\hat{\lambda})}$