[机器学习] 小傻学HMM：嚼烂HMM_hidden markov method-CSDN博客

本文链接：https://blog.csdn.net/djc_1992/article/details/108399768

[机器学习] 小傻学HMM：嚼烂HMM

1 基本概念介绍
- 1.1 HMM
2 公式推导
References

1 基本概念介绍

1.1 HMM

两种算法模型：

生成式P(x, Y)

 与nlg的生成概念不同
 Y可能是隐变量y=(smeo)，可能是回归值，可能是类别. 
 优势：能力强大；缺陷：成本高
 x->y, y->x, x,y
 可以用来采样
 朴素贝叶斯、混合高斯模型GMM、隐马尔科夫模型(HMM)、贝叶斯网络 Sigmoid Belief Networks 、深度信念网络（DBN）

判别式P(Y|X)
优势：目标导向，成本低；缺陷：只能解决单一问题
x->y
线性回归/逻辑回归（Logistic Regression）、K近邻（KNN）、感知机、神经网络（NN）、支持向量机（SVM）、决策树、最大熵模型（maximum entropy model, MaxEnt）、高斯过程（Gaussian Process）、条件随机场（CRF）、boosting方法

马尔可夫链（Markov link）：一种特殊的随机过程，其随机性只与当前状态有关，与过往已发生的状态和将来可能发生的状态都无关
隐马尔可夫链（hidden Markov method）：用来描述一个变化状态是隐藏的，且是离散的马尔可夫过程（特殊随机过程）。
隐马尔可夫模型（Hidden Markov Model，HMM）: 统计模型，描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

统计模型：
	是一组数学模型，它包含了一组关于样本数据的假设。统计模型通常以相当理想化的形式表示数据生成过程。
马尔可夫过程（Markov Process）：
	一类随机过程。马尔可夫过程是研究离散事件动态系统状态空间的重要方法，它的数学基础是随机过程理论。

1.1.1 参数定义

隐状态序列： $S = s_1s_2...s_n$ (S: state, 不能观测到的状态)
观测序列： $O = o_1o_2...o_n$ (O: objective, 我们所观测到的状态)
隐状态集合： $H ={ h_1, h_2, ..., h_n}$ (H: hidden, 就是一系列的隐状态所组成的集合， $s_i$ 属于H)
观测值集合： $R ={ r_1, r_2, ..., r_n}$ (R: Reality，已成事实，观测到啥样就是啥样；一系列的观测状态所组成的集合， $o_i$ 属于R)
参数 $\lambda = (\pi, A, B)$

$\pi$ : 初始状态概率分布，即第一个隐状态 $s_1$ 为各状态 $H=\{h_1,h_2,...h_N\}$ 的概率分别是多少。
$A中的元素a_{ij}$ : 当前时间点它的状态是 $h_i$ ，下一个时间点变成 $h_j$ 的概率，因为 $H$ 有 $N$ 个元素，所以它是个 $N\times N$ 方阵，每一个时间点的转移矩阵都是相同的，此为时间无关性。
$B中元素b_{ik}=P(o_t=r_k|s_t=h_i)=b_{s_t \to o_t}$ : 一个 $N\times M$ 矩阵，隐状态 $h_i$ 到观测值 $r_k$ 的概率，也是与时间先后无关的。

一个例子
在这里插入图片描述

假设我手里有三个不同的骰子。第一个骰子6个面（称这个骰子为D6），每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

我们开始掷骰子：
1.）我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。
2.）然后我们掷骰子，得到一个数字，1，2，3，4，5，6，7，8中的一个。不停的重复上述过程，我们会得到一串数字，每个数字都是1，2，3，4，5，6，7，8中的一个。

最后得到这么一串可见的数字称之为可见状态链（掷骰子10次）：1 6 3 5 2 7 3 5 2 4
还有一个隐含状态链，是你用的哪种骰子的序列D6 D8 D8 D6 D4 D8 D6 D6 D4 D8
在这里插入图片描述

1.2 二个假设

齐次markov性假设（当前状态至于其前一个状态有关，与观测序列无关）： $P(s_{t+1}|s_1s_2...s_t;o_1o_2...o_t)=P(s_{t+1}|s_t)$
观测独立性假设（观测值至于其隐状态有关，与其他状态无关）： $P(o_t|s_1s_2...s_t;o_1o_2...o_{t-1})=P(o_t|s_t)$
假设式为了增加模型泛化能力的先验，也是为了方便求解做出的妥协。

1.3 三种问题

Evaluation概率计算，正向、反向算法
给定𝜆，求𝑝(𝑂|𝜆)
Learning学习，EM算法
已知一个观测序列O，用MLE找出使O概率最大的𝜆
𝜆_𝑀𝐿𝐸=𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝑂|𝜆)
Decoding解码，viterbi算法
已知观测序列和参数lambda，求解概率最大的隐藏状态序列
𝐻=𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝐻|𝑂,𝜆)

Evaluation, Given $\lambda$ , 求 $P(O|\lambda)$ , 已知参数 $\lambda$ ，评估一个已经发生的观测序列 $O$ 的概率，用以判断我们的模型参数是不是准（知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率）
Learning, $\lambda$ , $\lambda_{MLE} = arg maxP(O|\lambda)$ 已知一个观测序列事实 $O$ ，找出一组参数 $\lambda$ 使得其概率最大, 用 $E M$ 算法（知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链））
Decoding, $\hat{H}= arg maxP(H|O;\lambda)$ , 已知观察序列和参数，求（反编）哪一串隐序列使得这个事实发生的概率最大，Viterbi算法（动态规划）穷举法（舍弃）（知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。）

2 公式推导

（参考别人，自己进行细化，个别地方进行解释说明）

2.1 question1：Evaluation

针对上述第一个问题，进行公式求解。
给定 $\lambda=(\pi,A,B)$ 　求 $P(O|\lambda)$

$P(O|\lambda) = \sum_{S}^H P(O,S|\lambda) =\sum_{S}^H P(O|S;\lambda)P(S|\lambda) \tag{1}$
将 $S = s_1s_2...s_n$ ，将其带入公式：
$P(S|\lambda)=P(s_1s_2...s_T|\lambda)=\color{green}P(s_T|s_1s_2...s_{T-1};\lambda)\color{red}P(s_1s_2...s_{T-1};\lambda)$
计算至T-1，进行迭代：
$P(s_1s_2...s_{T-1};\lambda)=\color{green}P(s_{T-1}|s_1s_2...s_{T-2};\lambda)\color{red}P(s_1s_2...s_{T-2};\lambda)$
$P(s_1s_2...s_{T-2};\lambda)=\color{green}P(s_{T-2}|s_1s_2...s_{T-3};\lambda)\color{red}P(s_1s_2...s_{T-3};\lambda)$
$. . .$
$P(s_2;\lambda)=\color{green}P(s_2|s_1;\lambda)\color{red}P(s_1;\lambda)$
又由齐次markov性假设（当前状态至于其前一个状态有关，与观测序列无关）：
$P(s_{t+1}|s_1s_2...s_t;o_1o_2...o_t)=P(s_{t+1}|s_t)$ ，故上式将后式逐渐向前式中进行带入，有

$P(S|\lambda)=P(s_1s_2...s_T|\lambda)=\color{green}P(s_T|s_1s_2...s_{T-1};\lambda) P(s_{T-1}|s_1s_2...s_{T-2};\lambda) P(s_{T-2}|s_1s_2...s_{T-3};\lambda)... \color{red}P(s_2|s_1;\lambda)\\ \color{black}= P(s_T|s_{T-1};\lambda) P(s_{T-1}|s_{T-2};\lambda) P(s_{T-2}|s_{T-3};\lambda)... \color{red}P(s_2|s_1;\lambda)\\ \color{block}=\prod_{t=2}^{T} p(s_t|s_{t-1}, \lambda)\color{red}P(s_2|s_1;\lambda);\; s_t \in H$

$=\prod_{t=2}^{T} p(s_t|s_{t-1}, \lambda)\color{red}P(s_1;\lambda) =\pi(s_1)\prod_{t=2}^{T} a_{s_{t-1}s_{t}}, \;\; s_t \in H \tag{2}$
根据定义， $P(O|S;\lambda)$ 为给定参数 $\lambda$ ，隐藏状态S时观测变量值，可直接得到：
$P(O|S;\lambda)=\prod_{t=1}^T b_{s_t \to o_t}, \; \; s_t \in H , o_t \in R \tag{3}$

所以
$P(O|\lambda)=\underbrace{\sum_{s_1}^H\sum_{s_2}^H...\sum_{s_T}^H}_{\text{O=N的T次方}} \pi(s_1) \prod_{t=1}^{T－1} a_{s_ts_{t+1}}\prod_{t=1}^T b_{s_t \to o_t} \tag{4}\\ o(TN^T)$

2.1.1前向算法

前向概率: 给定隐马尔可夫模型 $\lambda$ ，定义到t时刻部分观测序列为 $0_1, o_2, ..., o_t$ ，且状态为 $q_i$ 的概率为前向概率，记为
$\alpha_{t}(i)=P(o_1...o_t,s_t=h_i|\lambda) \tag{5}$
则可递推求得前向概率 $\alpha_{t}(i)$ 及观测序列概率 $P(O|\lambda)$ 。即给定了模型参数，给定时刻t的状态，此为概率进行计算。
$\tag{6} \alpha_{1}(i)=P(o_1,s_1=h_i|\lambda)=P(o_1|s_1=h_i)P(s_1=h_i)\\ =b_{h_i\to o_1}\pi(s_1=h_i) \\ \alpha_{T}(i)=P(O,s_T=h_i|\lambda)$

$\tag{7} P(O|\lambda) = \sum_{i=1}^N P(O,S_T=h_i|\lambda)\\ =\sum_{i=1}^N \alpha_{T}(i)$
展开
$\tag{8} \alpha_{t+1}(j)=P(o_1...o_to_{t+1},s_{t+1}=h_j|\lambda) \\ =\sum_{i=1}^N P(o_1...o_to_{t+1},s_t=h_i s_{t+1}=h_j|\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) P(o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|s_{t+1}=h_j) P(o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|s_{t+1}=h_j) P(s_{t+1}=h_j|s_t=h_i;\lambda) P(o_1...o_t,s_t=h_i;\lambda) \\ =\sum_{i=1}^N b_{h_j \to o_{t+1}} a_{ij} \alpha_{t}(i)$

2.1.2 计算过程：

step1: 计算 $\alpha_{1}(i) \; \; from \;\; i=1 \to N$ 依据公式 $(6)$
step2: 计算 $\alpha_{2}(j) \; \; from \;\; j=1 \to N$ 依据step1 和公式 $(8)$
…依据上一步和公式 $(8)$
stepT: 计算 $\alpha_{T}(k) \; \; from \;\; k=1 \to N$ 依据上一步和公式 $(8)$
finally 依公式 $(7)$ 得 $P(O∣\lambda)$

2.2 后向算法

给定 $\lambda=(\pi,A,B)$ 　求 $P(O|\lambda)$

若记
$\tag{9} \beta_{t}(i) = P(o_{t+1}...o_T|s_t=h_i;\lambda)$
则有
$\tag{10} \beta_{1}(i) = P(o_2...o_T|s_1=h_i;\lambda)$
同时
$\tag{11} \beta_{T-1}(i)=P(o_T|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T,s_T=h_j|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T|s_T=h_j,s_{T-1}=h_i;\lambda) P(s_T=h_j|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T|s_T=h_j,s_{T-1}=h_i;\lambda) a_{ij} \\ =\sum_{j=1}^N b_{j\to o_T} a_{ij}$
现在我们列出递推式 $\beta_t$ 与 $\beta_{t+1}$ 的关系
$\tag{12} \beta_{t}(i)=P(o_{t+1}...o_T|s_t=h_i;\lambda) \\ =\sum_{j=1}^N P(o_{t+1}...o_T,s_{t+1}=h_j|s_t=h_i;\lambda) \\ =\sum_{j=1}^N P(o_{t+1}|o_{t+2}...o_T,s_{t+1}=h_j,s_t=h_i;\lambda) P(o_{t+2}...o_T,s_{t+1}=h_j|s_t=h_i;\lambda) \\ =\sum_{j=1}^N b_{j \to o_{t+1}} P(o_{t+2}...o_T|s_{t+1}=h_j,s_t=h_i) P(s_{t+1}=h_j|s_t=h_i) \\ 这一步两个状态作为条件不能直接把s_{t}去掉。\\但考虑到a->b->c，知道了b就中断了a与c的联系，ac相当于互相独立了。则可以去掉s_t\\ =\sum_{j=1}^N b_{j \to o_{t+1}} \beta_{t+1}(j) a_{ij}$
而所求为
$\tag{13} P(O|\lambda)=P(o_1...o_T|\lambda) \\ =\sum_{i=1}^N P(o_1...o_T,s_1=h_i;\lambda) \\ =\sum_{i=1}^N P(o_1...o_T|s_1=h_i;\lambda)P(s_1=h_i) \\ =\sum_{i=1}^N P(o_1...o_T|s_1=h_i;\lambda)\pi(s_1) \\ =\sum_{i=1}^N P(o_1|o_2...o_T,s_1=h_i;\lambda)P(o_2...o_T,s_1=h_i;\lambda)\pi(s_1) \\ =\sum_{i=1}^N P(o_1 | s_1=h_i)\beta_1(i) \pi(s_1=h_i) \\ =\sum_{i=1}^N b_{s_1=h_i \to o_1} \beta_1(i)\pi(s_1=h_i)$

计算过程：

step1: 计算 $\beta_{T-1}(i) \; \; from \;\; i=1 \to N$ 依据公式 $(11)$
step2: 计算 $\beta_{T-2}(j) \; \; from \;\; j=1 \to N$ 依据step1 和公式 $(12)$
…依据上一步和公式 $(12)$
stepT-1: 计算 $\beta_{1}(k) \; \; from \;\; k=1 \to N$ 依据上一步和公式 $(12)$
finally 依公式 $(13)$ 得 $P(O∣\lambda)$

Learning 问题

EM算法
$\tag{14} \theta^{t+1}=\underset{\theta}{\operatorname{argmax}} \int_{z} log P(X,Z|\theta) P(Z|X,\theta^t)dz$
对应到HMM的参数 $\lambda=(\pi, A, B)$
$\tag{15} \lambda^{t+1}=\underset{\lambda}{\operatorname{argmax}} \sum_{S} log P(O,S|\lambda) P(S|O,\lambda^t)$
又因为
$P(S|O,\lambda^t)=\frac{P(S,O|\lambda^t)}{P(O,\lambda^t)}$
中分母 $P(O,\lambda^t)$ 是个定值，对 $(15)$ 不影响，所以目标可变为
$\tag{16} \lambda^{t+1}=\underset{\lambda}{\operatorname{argmax}} \sum_{S} log P(O,S|\lambda) P(S,O|\lambda^t)$
所以我们可以定义目标函数为：
$\tag{17} f(\lambda, \lambda^t)=\sum_{S} \log P(O,S|\lambda) P(S,O|\lambda^t) \\ 代入(4)式 P(O,S|\lambda)=\pi(s_1) \prod_{t=1}^{T－1} a_{s_ts_{t+1}}\prod_{t=1}^T b_{s_t \to o_t} \\ =\sum_{S} [(log \pi(s_1) + \bcancel{\sum_{t=1}^{T－1} log a_{s_ts_{t+1}}}+ \bcancel{\sum_{t=1}^T log b_{s_t \to o_t}})P(S,O|\lambda^t)]$
为了简便计算，我们先只考虑 $\pi(s_1)$ , 公式 $(17)$ 可进一步简化为：
$\sum_{S} [log \pi(s_1)P(S,O|\lambda^t)] \\ =\sum_{s_1}...\sum_{s_T} [log \pi(s_1)P(O,s_1...s_T|\lambda^t)] \\ s_2...s_T与\pi没关系，所以\sum_{s_{2...N}}相当于求P(O,S)的边缘概率：P(O,s_1)=\sum_{s_{2...N}}P(O,s_1...s_N)\\ 故=\sum_{s_1} [log \pi(s_1)P(O,s_1|\lambda^t)] \\ =\sum_{h_i,i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)]$
问题转化为约束条件下的极值问题：
$\begin{cases} \sum_{i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)] \\ s.t \;\; \sum_{i=1}^N \pi(s_1=h_i)=1 \end{cases}$
利用Lagrange乘子法
$\tag{19} L(\pi, \eta)=\sum_{i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)] + \eta(\sum_{i=1}^N \pi(s_1=h_i)-1)$

$\tag{20} \frac{\partial L}{\partial \pi_i}=\frac{1}{\pi_i}P(O,s_1=h_i|\lambda^t) + \eta =0$

两边乘以 $\pi_i$ 再把所有 $\pi_i$ 进行求和得：
$\sum_{i=1}^N P(O,s_1=h_i|\lambda^t) + \eta =0 \eta = -\sum_{i=1}^N P(O,s_1=h_i|\lambda^t)$ 代入(20)得
$\pi_i =\frac{P(O,s_1=h_i|\lambda^t)}{\sum_{i=1}^N P(O,s_1=h_i|\lambda^t)}$
最终得
$\pi_i^{t+1} =\frac{P(O,s_1=h_i|\lambda^t)}{P(O|\lambda^t)}$
PS：这里如果真实求值，则依然使用前向后向算法，只是把第一个隐藏状态做了限制。

$\sum_I(\sum_{t=1}^{T-1}\log a_{i_ti_{t+1}})p(O,I|\lambda^-)=\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}a_{ij}p(O,i_t=i,i_{t+1}=j|\lambda^-)\\ \sum_{j=1}^N a_{ij}=1\\ a_{ij}=\frac {\sum_{t=1}^{T-1}p(O,i_t=i,i_{t+1}=j|\lambda^-)}{\sum_{t=1}^{T-1}p(O,i_t=i|\lambda^-)}$

$b_j(k)=\frac {\sum_{t=1}^{T}p(O,i_t=j|\lambda^-)I(o_t=v_k)}{\sum_{t=1}^{T}p(O,i_t=i|\lambda^-)}$

发射概率b，每个隐藏状态对应K个值，对b_k求导时，只有o_t=v_k时才不等于0。

hmm的em算法是无监督的，如果有标注，那么直接使用统计即可得出参数

Decoding 问题

Viterbi算法

类似动态规划思想，求出每个子序列的最大值进而逐步得到整个序列发生的最大值。它相比穷举法对时间复杂度有很大的改进。

对于一个已经发生的观察序列 $O=o_1o_2...o_T$ , 要找到某一隐序列 $s_1s_2...s_T, s_i \in H$ 使发生的概率最大

穷举法，每一个 $s_i$ 都可以有 $N$ 种可能，共有 $N^T$ 种序列，根据参数，算出每一种序列的发观事实的概率，取最大的。
Viterbi 算法， $o_1$ 找出最大概率对应的 $s_1$ ,固定！ $s_1 \to s_2=h_i \to o_2$ 选一条最大的固定, $s_1s_2\to s_3=h_i \to o_3$ 选一条最大的，这样就有 $T * N$ 的计算复杂度。

$\tag{21} P(S|O,\lambda) \\ S=s_1s_2s_3...s_T \\ O=o_1o_2o_3...o_T$
首先定义
$\delta_{t} (i) = \underset{s_1s_2...s_{t}}{\operatorname{max}} P(s_t=h_i,...s_2s_1,o_1o_2...o_t|\lambda)$
表示 $t$ 时刻，隐状态 $s_t=h_i$ ，为最符合已发生事实的概率标记,

则有
$\delta_{t+1} (i) =\max_{s_1...s_{t+1}}p(s_{t+1}=h_i,s_1...s_t,o_1..o_{t+1})\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_1...s_{t+1},o_1..o_t)p(s_1...s_{t+1},o_1..o_t)\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_{t+1})p(s_{t+1}|s_t,s_1..s_{t-1},o_1..o_t)p(s_1...s_t,o_1..o_t)\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_{t+1})p(s_{t+1}|s_t)p(s_1...s_t,o_1..o_t)\\ =\max_{j=1}^N \theta_t(j)a_{ji}b_{s_io_{t+1}}$

$\delta_{1}(i)={\max_{s_1}}P(s_1=h_i,o_1)$
令
$\varphi(t)=\arg \max_{1<=i<=N} \delta_t (i)=i$
所以有
$\varphi(1)\varphi(2)...\varphi(T) = index(S) = \underset{index(S)}{\operatorname{max}}P(S|O,\lambda)$