【10.1算法理论部分（2）概率计算问题（前向-后向算法）】Hidden Markov Algorithm——李航《统计学习方法》公式推导

Heytee

已于 2023-03-07 14:27:03 修改

阅读量152

点赞数

文章标签：算法人工智能

于 2022-12-30 19:48:24 首次发布

本文链接：https://blog.csdn.net/qq_35238626/article/details/128499888

版权

10.2 概率计算方法（解决Evaluation：Given λ ，求 P(O|λ)）

10.2.1直接计算法

1.给定HMM模型 $\lambda = (A,B,\pi)$ 和观测序列 $(o_{1},o_{2}, \cdot \cdot \cdot , o_{T})$ ，概率计算问题需要计算在模型λ下观测序列O出现的概率 $P(O|\lambda)$ .
2.最直接的方法是按照概率公式直接计算：通过列举所有可能的、长度为T的状态序列 $(s_{1},s_{2}, \cdot \cdot \cdot , s_{T})$ ，求各个状态序列 I 与观测序列 $(o_{1},o_{2}, \cdot \cdot \cdot , o_{T})$ 的联合概率 $P(O,S|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$ .
（1）状态序列 $(s_{1},s_{2}, \cdot \cdot \cdot , s_{T})$ 的概率为：
$P(S|\lambda) = \pi_{s_{1}},a_{s_{1}s_{2}},a_{s_{2}s_{3}},\cdot \cdot \cdot ,a_{s_{T-1}s_{T}}----(10.10)$
（2）给定状态序列 $(s_{1},s_{2}, \cdot \cdot \cdot , s_{T})$ ，观测序列 $(o_{1},o_{2}, \cdot \cdot \cdot , o_{T})$ 的条件概率为：
$P(O|S,\lambda) = b_{s_{1}}(o_{1}),b_{s_{2}}(o_{2}),\cdot \cdot \cdot ,b_{s_{T}}(o_{T})----(10.11)$
（3）O 和 I 同时出现的联合概率为：
$P(O,S|\lambda) = P(O|S,\lambda)P(S|\lambda) = \pi_{s_{1}}a_{s_{1}s_{2}}a_{s_{2}s_{3}},\cdot \cdot \cdot ,a_{s_{T-1}s_{T}}b_{s_{1}}(o_{1}),b_{s_{2}}(o_{2}),\cdot \cdot \cdot ,b_{s_{T}}(o_{T})----(10.12)$
（4）对所有可能的状态序列 I 求和，得到观测序列 O 的概率：
$P(O|\lambda) = \sum_{S} P(O|S,\lambda)P(S|\lambda) = \sum_{S} P(O,S|\lambda) = \sum_{s_{1},s_{1}, \cdot \cdot \cdot ,s_{T}} \pi_{s_{1}}a_{s_{1}s_{2}}a_{s_{2}s_{3}},\cdot \cdot \cdot ,a_{s_{T-1}s_{T}}b_{s_{1}}(o_{1}),b_{s_{2}}(o_{2}),\cdot \cdot \cdot ,b_{s_{T}}(o_{T})----(10.13)$
这里就是对S求积分，然后就可以把S积掉，然后得到 $P(O|\lambda)$ .
上式的算法复杂度为 $O(T*Q^{T})$ ，太复杂，实际应用中不太可行。
上式中的时间复杂度 $O(T*Q^{T})$ 是怎么计算的呢？
对于式子 $P(O,S|\lambda) = P(O|S,\lambda)P(S|\lambda) = \pi_{s_{1}}a_{s_{1}s_{2}}a_{s_{2}s_{3}},\cdot \cdot \cdot ,a_{s_{T-1}s_{T}}b_{s_{1}}(o_{1}),b_{s_{2}}(o_{2}),\cdot \cdot \cdot ,b_{s_{T}}(o_{T})$ 本身的时间复杂度为T，然后由于需要计算 $\sum_{s_{1},s_{1}, \cdot \cdot \cdot ,s_{T}}$ ，这里就相当于是 $N^{T}$ ，所以最终的时间复杂度就为 $O(TN^{T})$ .

10.2.2前向算法

定义10.2（前向概率） 给定隐马尔可夫模型 λ ，定义到时刻 t 部分观测序列为 $o_{1},o_{2}, \cdot \cdot \cdot , o_{T}$ 且状态为 $q_{i}$ 的概率为前向概率，记作：
$\alpha_{t}(i) = P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)----(10.14)$
可以递推的求得前向概率 $\alpha_{t}(i)$ 及观测序列概率 $P(O|\lambda)$ .
算法10.2（观测序列概率的前向算法）
输入：HMM的参数 λ ，观测序列O；
输出：观测序列概率 P(O|λ).
（1）初值
$\alpha_{1}(i) = \pi_{i}b_{i}(o_{1}), i = 1,2, \cdot \cdot \cdot , N----(10.15)$
（2）递推对 $\cdot \cdot \cdot , T-1$ ,
$\alpha_{t+1}(i) = \left [ \sum_{j=1}^{N}\alpha_{t}(j)a_{ji} \right ] b_{i}(o_{t+1}), i = 1,2, \cdot \cdot \cdot , N----(10.16)$
(10.16)推导
$\alpha_{t}(i)----(10.16.1)$
$=P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)----(10.16.2)$
$=\sum_{j=1}^{N}P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t-1} = q_{j},s_{t} = q_{i}|\lambda)----(10.16.3)$
$=\sum_{j=1}^{N}P( o_{t}|o_{1},o_{2}, \cdot \cdot \cdot,o_{t-1} ,s_{t-1} = q_{j},s_{t} = q_{i},\lambda)P(o_{1},o_{2}, \cdot \cdot \cdot,o_{t-1} ,s_{t-1} = q_{j},s_{t} = q_{i}|\lambda)----(10.16.4)$
$=\sum_{j=1}^{N}P(o_{t}|s_{t} = q_{i},\lambda)P(o_{1},o_{2}, \cdot \cdot \cdot,o_{t-1} ,s_{t-1} = q_{j},s_{t} = q_{i}|\lambda)P(s_{t} = q_{i}|o_{1},o_{2}, \cdot \cdot \cdot,o_{t-1} ,s_{t-1} = q_{j},\lambda)----(10.16.5)$
$=P(o_{t}|s_{t} = q_{i},\lambda)\sum_{j=1}^{N}P(o_{1},o_{2}, \cdot \cdot \cdot,o_{t-1} ,s_{t-1} = q_{j}|\lambda)P(s_{t} = q_{i}|s_{t-1} = q_{j},\lambda)----(10.16.6)$
$=b_{s}(o_{t})\sum_{j=1}^{N}\alpha_{t-1}(j)a_{ji}----(10.16.7)$
这个用的是 $\alpha_{t}(i)$ 和 $\alpha_{t-1}(j)$ 的递推，与（10.16）的 $\alpha_{t+1}(i)$ 和 $\alpha_{t}(j)$ 递推类似，改改下标就行
其中，(10.16.4)-(10.16.5)用到了观测独立性假设和条件概率，(10.16.5)-(10.16.6)用到了齐次马尔可夫性假设
（3）终止
$\sum_{i=1}^{N}\alpha_{T}(i)---(10.17)$
这个公式该如何理解嘞？
就相当于 $\sum_{i=1}^{N}\alpha_{T}(i) = \sum_{i=1}^{N}P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)$ 对i进行积分，就可以直接得到 $P (O ∣ λ)$ .
给一张图片可以更直观的感受这个公式的意思：

这里我习惯从 i 到 j 可能和公式中的 $a_{ji}$ 正好反过来了，看的时候可以注意一下，其实都是一个道理，只是一个符号而已。
同时借着这张图和前向算法的递推式来聊一聊时间复杂度的问题：
由于前向算法的递推公式，所以每一步的计算都用到了上一步的结果，所以使得时间复杂度大大的降低，我们来算一算前向算法的具体的时间复杂度：每一个时刻 t 都有 N 个可能的状态，每一个状态需要运用前向算法的递推公式要计算 $N^2$ 次，一共有T个时刻，所以最终的时间复杂度为 $O(TN^2)$ ，提前说一句，当你看完后向算法的时候你会发现，后向算法的时间复杂度也是 $O(TN^2)$ ，后面还会提这个问题。
都看到这里了，也是一大堆理论的东西，没有例子终究觉得理解的不够深刻，那我建议去看一看书中的例10.2，自己算一遍，理解肯定非常深刻

10.2.3后向算法

**定义10.3（后向概率）**给定隐马尔可夫模型 λ，定义在时刻 t 状态为 $q_{i}$ 的条件下，从 t+1 到 T 的部分观测序列为 $o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}$ 的概率为后向概率，记作：
$\beta_{t}(i) = P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t} = q_{i},\lambda)----(10.18)$
算法10.3（观测序列概率的后向算法）
输入：HMM的参数 λ ，观测序列O；
输出：观测序列概率P(O|λ).
（1）计算初值：
$\beta_{T}(i) = 1 , i = 1,2, \cdot \cdot \cdot , N----(10.19)$
这个地方你可能有问题，就是为什么 $\beta_{T}(i)$ 要等于1 ？
解答这个问题可以从后向概率的定义说起，对于 $\beta_{T}(i)$ 是什么意思嘞，就是说在 T 时刻状态为 $KaTeX parse error: Undefined control sequence: \q at position 1: \̲q̲_{i}$ 的条件下，从 T+1 到最后的观测序列，但是我们的观测就知道 T ，所以T+1 时刻可以观测到任意值，所以概率就是1。
同样的在网上我也看到了相应问题的数学推导，见下图，可以跟着推导理解一下。

*该图片引自知乎https://www.zhihu.com/question/55974064南屏晚钟的解答，如有侵权，请联系后速删*

（2）递推：对 $T-1,T-2,\cdot \cdot \cdot ,1$
$\beta_{t}(i) = \sum_{j=1}^{N}\alpha_{t}(j)a_{} b_{i}(o_{t+1}), i = 1,2, \cdot \cdot \cdot , N----(10.20)$
（10.20）推导
$\beta_{t}(i)----(10.20.1)$
$=P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t} = q_{i},\lambda)----(10.20.2)$
$=\sum_{j=1}^{N}P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T},s_{t+1} = q_{j}|s_{t} = q_{i},\lambda)----(10.20.3)$
$=\sum_{j=1}^{N}P( s_{t+1}=q_{j}|s_{t}=q_{i},\lambda)P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t+1} = q_{j},s_{t} = q_{i},\lambda)----(10.20.4)$
$=\sum_{j=1}^{N}P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t+1} = q_{j},s_{t} = q_{i},\lambda)a_{ij}----(10.20.5)$
$=\sum_{j=1}^{N}P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t+1} = q_{j},\lambda)a_{ij}----(10.20.6)$
$=\sum_{j=1}^{N}P(o_{t+1}|o_{t+2},o_{t+3}, \cdot \cdot \cdot , o_{T},s_{t+1} = q_{j},\lambda)P(o_{t+2},o_{t+3}, \cdot \cdot \cdot , o_{T}|s_{t+1} = q_{j},\lambda)a_{ij}----(10.20.7)$
$=\sum_{j=1}^{N}P(o_{t+1}|s_{t+1} = q_{j},\lambda)P(o_{t+2},o_{t+3}, \cdot \cdot \cdot , o_{T}|s_{t+1} = q_{j},\lambda)a_{ij}----(10.20.8)$
$=\sum_{j=1}^{N}b_{j}(o_{t+1})\beta_{t+1}(j)a_{ij}----(10.20.9)$
这个用的是 $\beta_{t}(i)$ 和 $\beta_{t+1}(j)$ 的递推，与公式保持一致
(10.20.5)-(10.20.6)用到的是齐次马尔科夫性假设，(10.20.6)-(10.20.7)用到的是观测独立性假设。
（3）终止：
$\sum_{i=1}^{Q}\pi_{i}b_{i}(o_{1})\beta_{1}(i)----(10.21)$
(10.21)推导
$P (O ∣ λ) - - - - (10.21.1)$
$P(o_{1},o_{2},\cdot \cdot \cdot ,o_{T}|λ)----(10.21.2)$
$\sum_{N}^{i=1}P(o_{1},o_{2},\cdot \cdot \cdot ,o_{T},s_{1} = q_{i}|λ)----(10.21.3)$
$=\sum_{N}^{i=1}P(o_{1}|o_{2},o_{3},\cdot \cdot \cdot ,o_{T},s_{1} = q_{i},λ)P(o_{2},o_{3},\cdot \cdot \cdot ,o_{T},s_{1} = q_{i}|λ)----(10.21.4)$
$=\sum_{N}^{i=1}P(o_{1}|s_{1} = q_{i},λ)P(o_{2},o_{3},\cdot \cdot \cdot ,o_{T},s_{1} = q_{i}|λ)----(10.21.5)$
$=\sum_{N}^{i=1}b_{i}(o_{1})P(o_{2},o_{3},\cdot \cdot \cdot ,o_{T},s_{1} = q_{i}|λ)----(10.21.6)$
$=\sum_{N}^{i=1}b_{i}(o_{1})P(o_{2},o_{3},\cdot \cdot \cdot ,o_{T}|s_{1} = q_{i},λ)P(s_{1}=q_{i}|\lambda)----(10.21.7)$
$=\sum_{N}^{i=1}\pi_{i}b_{i}(o_{1})\beta_{1}(i)----(10.21.8)$
这里(10.21.4)-(10.21.5)用到了观测独立性假设
同样的继续画一张后向算法的图，感受一下上面公式的意思：

用这张图再来看一下后向算法的时间复杂度
现在你会发现后向算法是不是和前向算法一样，都是每次迭代都可以用到上一步的计算结果，使得计算大大的简化，这里后向算法的时间复杂度还是 $O(TN^2)$ ，这里就不赘述了，可以参考前向算法。

10.2.3 对前向算法和后向算法的统一进行的补充

前向概率
$\sum_{i=1}^{N}\alpha_{T}(i)$
后向概率
$\sum_{Q}^{i=1}\pi_{i}b_{i}(o_{1})\beta_{1}(i)$
结合
$\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j), t = 1,2, \cdot \cdot \cdot ,T-1----（10.22）$
（10.22）推导
（1）当 t = 1 时：
$P (O ∣ λ) - - - - （ 10.22.1.1 ）$
$\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{1}(i)a_{ij}b_{j}(o_{2})\beta_{2}(j)----（10.22.1.2）$
$\sum_{i=1}^{N}\pi_{i}\beta_{1}(i)----（10.22.1.3）$
这里(10.22.1.2)-(10.22.1.3)用到了后向算法的递推公式可以直接得到，所以当 t = 1 时，这个就是后向算法。
（2）当t = T-1时：
$P (O ∣ λ) - - - - （ 10.22.2.1 ）$
$\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{T-1}(i)a_{ij}b_{j}(o_{T})\beta_{T}(j)----（10.22.2.2）$
$\sum_{j=1}^{N} \left [ \sum_{i=1}^{N}\alpha_{T-1}(i)a_{ij} \right ] b_{j}(o_{T})----（10.22.2.3）$
$\sum_{j=1}^{N} \alpha_{T}(j)----（10.22.2.4）$
这里(10.22.2.2)-(10.22.2.3)中 $\beta_{T}(j) = 1$ ，所以当 t = T - 1 时，这个就是前向算法。
前向-后向算法的继续推导
$P (O ∣ λ)$
$\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)$
$\sum_{j=1}^{N}\left[\sum_{i=1}^{N}\alpha_{t}(i)a_{ij} \right ] b_{j}(o_{t+1})\beta_{t+1}(j)$
$\sum_{j=1}^{N}\alpha_{t+1}(j)\beta_{t+1}(j)$
$\sum_{j=1}^{N}P(O,s_{t} = q_{j}|\lambda)$

10.2.4 一些概率与期望值的计算

利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的计算公式。

给定模型参数 λ 和观测O，在时刻 t 处于状态 $q_{i}$ 的概率，记
$\gamma_{t}(i) = P(s_{i} = q_{i}|O,\lambda) = \frac{P(s_{i} = q_{i},O|\lambda)}{P(O|\lambda)}----(10.23)$
由前向概率和后向概率定义可知：
$\alpha_{t}(i)\beta_{t}(i) = P(s_{t} = q_{i},O|\lambda)$
上面这个公式是怎么推导的呢？
（1）前向概率
$\alpha_{t}(i) = P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)$
（2）后向概率
$\beta_{t}(i) = P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T}|s_{t} = q_{i},\lambda)$
（3）推导
$\alpha_{t}(i)\beta_{t}(i)$
$P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T},s_{t} = q_{i}|s_{t} = q_{i},\lambda)$
$P(o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i}|\lambda)P(o_{t+1},o_{t+2}, \cdot \cdot \cdot , o_{T},s_{t} = q_{i}|o_{1},o_{2}, \cdot \cdot \cdot , o_{t},s_{t} = q_{i},\lambda)$
$P(s_{t} = q_{i},o_{1},o_{2}, \cdot \cdot \cdot , o_{T}|\lambda)$
$P(s_{t} = q_{i},O|\lambda)$
最终得到：
$\gamma_{t}(i) = \frac{\alpha_{t}(i)\beta_{t}(i)}{P(O|\lambda)} = \frac{\alpha_{t}(i)\beta_{t}(i)}{\sum_{j=1}^{N}\alpha_{t}(j)\beta_{t}(j)}----(10.24)$
给定模型参数 λ 和观测 O，在时刻 t 处于状态 $q_{i}$ 且在时刻 t+1 处于状态 $q_{j}$ 的概率，记
$\xi_{t}(i,j) =P(s_{t} = q_{i},s_{t+1} = q_{j}|O,\lambda)----(10.25)$
可以通过前后向概率计算：
$\xi_{t}(i,j) = \frac{P(s_{t} = q_{i},s_{t+1} = q_{j}|O,\lambda)}{P(O|\lambda)} = \frac{P(s_{t} = q_{i},s_{t+1} = q_{j},O|\lambda)}{\sum_{i=1}^{N}\sum_{j=1}^{N}P(s_{t} = q_{i},s_{t+1} = q_{j},O|\lambda)}$
而
$P(s_{t} = q_{i},s_{t+1} = q_{j},O|\lambda) = \alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)$
所以
$\xi_{t}(i,j) = \frac{\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)}----(10.26)$
将 $\gamma_{t}(i)$ 和 $\xi_{t}(i,j)$ 对各个时刻 t 求和，可以得到一些有用的期望值。
（1）在观测 O 下状态 i 出现的期望值：
$\sum_{t=1}^{T}\gamma_{t}(i)----(10.27)$
（2）在观测 O 下状态 i 转移的期望值：
$\sum_{t=1}^{T-1}\gamma_{t}(i)----(10.28)$
（3）在观测 O 下由状态 i 转移到状态 j 的期望值：
$\sum_{t=1}^{T-1}\xi_{t}(i,j)----(10.29)$

参考文献

以下是HMM系列文章的参考文献：

李航——《统计学习方法》
YouTube——shuhuai008的视频课程HMM
YouTube——徐亦达机器学习HMM、EM
*[https://www.huaxiaozhuan.com/%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0/chapters/15_HMM.html]：隐马尔可夫模型
[https://sm1les.com/2019/04/10/hidden-markov-model/]：隐马尔可夫模型（HMM）及其三个基本问题
例子可以看这个[https://www.cnblogs.com/skyme/p/4651331.html]：一文搞懂HMM（隐马尔可夫模型）
[https://www.zhihu.com/question/55974064]：南屏晚钟的解答

感谢以上作者对本文的贡献，如有侵权联系后删除相应内容。

Heytee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【10.1算法理论部分（2）概率计算问题（前向-后向算法）】Hidden Markov Algorithm——李航《统计学习方法》公式推导

本节主要介绍计算观测序列概率的前前向和后向算法。
复制链接

扫一扫