统计学习方法-第十章

最新推荐文章于 2022-04-29 14:44:45 发布

那年柒月人未眠

最新推荐文章于 2022-04-29 14:44:45 发布

阅读量338

点赞数

分类专栏：统计学习方法文章标签：统计学习方法

本文链接：https://blog.csdn.net/U201410691/article/details/88682866

版权

统计学习方法专栏收录该内容

13 篇文章 0 订阅

订阅专栏

统计学习方法-第十章-隐马尔可夫模型

隐马尔可夫模型定义
前向算法
学习算法
预测算法
- 近似算法
- 维特比算法

隐马尔可夫模型定义

初始概率分布：向量 $π = P(i_1=q_i)$

观测概率矩阵： $B=[b_j(k)]_{N×M}$
其中 $b_j(k) = P(o_t=v_k|i_t=q_j)\qquad k=1,2,...,M;j=1,2,...,N$
表示t时刻在qt条件下生成观测结果Vk的概率

状态转移矩阵： $A=[a_{ij}]_{N×N}$
其中： $a_{ij} = P(i_{t+1} = q_j|i_t = q_t)$
表示t时刻在qt条件下在t+1时刻转移到q(t+1)的概率。

可能的状态集合： $Q=\left \{ q_1, q_2,...,q_N\right \}$
N是可能的状态数

可能的观测集合： $V=\left \{ v_1, v_2,...,v_M\right \}$
M是可能的观测数

状态序列： $I=\left \{ i_1, i_2,...,i_T\right \}$
I是长度为T的序列

状态序列： $O=\left \{ o_1,o_2,...,o_T\right \}$
O是长度为T的序列

$λ = (A, B, π)$
状态转移矩阵A与初始概率分布向量π确定了隐马尔科夫链，生成不可观察的状态序列。观测概率矩阵B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

两个假设：
(1)：这一时刻的状态只依赖于前一时刻（感觉有点像，拉普拉斯兽）
$P(i_t|i_{t-1},o_{t-1},...,i_1,o_1) = P(i_t|i_{t-1})$
(2)：观测的独立性假设，即任意时刻只依赖于该时刻的隐马尔可夫链状态，与其他观测状态无关。
$P(o_t|i_{T },o_{T}，i_{T -1},o_{T-1},...i_{t+1},o_{t+1},i_{t},i_{t-1},o_{t-1},...,i_1,o_1) = P(o_t|i_{t})$

直接计算算法：
$\sum_{i_1,i_2,...,i_T}π_ib_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

前向算法

由于直接计算，通常计算量过大，所以采用优化算法。记
$α_t(i) = P(o_1,o_2,...,o_t,i_t=q_i|λ)$
输入：隐马尔可夫模型λ，观测序列O；
输出：概率P(O|λ)
(1)初值：
$α_1(i) = π_ib_i(o_1)$
(2)递推：对t = 1,2,…,T-1
$α_{i+1}(i) = [\sum_{j=1}^N α_t(j)a_{ji}] b_i(o_{i+1})$
(3)终止
$\sum_{j=1}^N α_T(i)$
向前计算就是将前一步计算的结果保存减少计算步骤。
后向计算原理类似

学习算法

监督学习方法，对 $\left \{ (O_1,I_1),(O_2,I_2),...(O_s,I_s) \right \}$ ,用极大似然估计去计算，隐马尔可夫模型。则状态转移的概率同频数统计：
$\hat a_{ij} = \frac{A_{ij}}{\sum_{j=1}^{N}A_{ij}}$
设样本中状态为j，并观测为k的频数是 $B_{jk}$ 。那么，状态为j，并观测为k的概率为
$\hat b_{j}(k) = \frac{A_{jk}}{\sum_{k=1}^{M}A_{jk}}$
初始状态为概率 $π_i$ 的估计是S个样本中，初始状态为 $q_i$ 的频率。对于监督学习，人工标注数据的代价往往很高，我们使用非监督学习。

Baum-Welch算法就是一个已知观测序列，状态序列未知的隐函数模型，对于这种有隐函数的模型，可以用EM算法求解。求出Q函数，对Q函数的期望进行极大似然估计，得到迭代公式。

预测算法

近似算法

已知时刻t的状态 $λ_t(i)$ ，则在 $I^* = (I_1^*,I_2^*,...,I_N^*)$ 的状态可以预估。
$λ_t(i) = \frac{α_t(i)β_t(i)}{\sum_{j=1}^N α_t(i)β_t(i)}$
在每个时刻最大的可能性为
$I_t^* = argmax_{1<i<N}[λ_t(i)]$
上述算法求得的可能不是整体最优解