【西瓜书笔记】12. 隐马尔科夫模型（2）

西风瘦马1912

已于 2022-04-03 06:47:48 修改

阅读量1.2k

点赞数

分类专栏：《机器学习》西瓜书第15期文章标签：马尔科夫链隐马尔科夫模型 EM算法机器学习统计学习

于 2022-04-03 00:55:23 首次发布

本文链接：https://blog.csdn.net/weixin_39236489/article/details/123931891

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

监督学习方法

假设已给出训练数据包含S个长度相同的观测序列和对应的状态序列 $\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \ldots,\left(O_{S}, I_{S}\right)\right\}$ 那么可以利用极大似然估计法来估计隐马尔科夫模型，具体方法如下

转移概率 $a_{ij}$ 的估计：
$a_{i j}=\frac{A_{i j}}{\sum_{j=1}^{N} A_{i j}}$
其中， $A_{ij}$ 为样本中时刻t处于状态 $q_{i}$ 而到时刻t+1转移到状态 $q_{j}$ 的频数。

观测概率 $b_{ij}$ 的估计：
$b_{j k}=\frac{B_{j k}}{\sum_{k=1}^{M} B_{j k}}$
其中， $B_{jk}$ 为样本中状态数为 $q_j$ ，其对应观测为 $v_{k}$ 的频数。初始状态概率 $\pi_{i}$ 的估计为S个样本中初始状态为 $q_{i}$ 的频率。

举个例子。假设状态集合是 ${1,2,3\}$ ,观测集合是 ${a, b\}$ ，样本有两个： $O_1=(a, a, b), I_{1}=(2, 1, 1), O_{2}=(a, b, a), I_{2}=(1, 3, 2)$ 。那么对于转移概率有：
$a_{11}=\frac{A_{11}}{A_{11}+A_{12}+A_{13}}=\frac{1}{1+0+1}=\frac{1}{2}\\ a_{12}=0\\ a_{13}=\frac{1}{2}$
对于观测概率有
$b_{1a}=\frac{B_{1a}}{B_{1a}+B_{1b}}=\dfrac{2}{1+2}=\frac{2}{3}\\ b_{1b}=\frac{B_{1b}}{B_{1a}+B_{1b}}=\dfrac{1}{1+2}=\frac{1}{3}$
初始概率有 $\pi_{1}=\dfrac{1}{2}, \pi_{2}=\dfrac{1}{2}, \pi_{3}=0$ 。

Baum-Welch算法

这个算法就是EM算法在隐马尔科夫模型的应用。如果只有观测序列数据 $O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ ，而没有状态序列数据 $I=\left(i_{1}, i_{2}, \ldots, i_{T}\right)$ ，那么隐马尔科夫模型就是一个含有隐变量的概率模型（ $P(Y\mid \theta)=\sum_{Z} P(Y\mid Z, \theta)P(Z\mid \theta), Y\rightarrow O, Z\rightarrow I$ ）：
$\mid \lambda)=\sum_{I} P(O \mid I, \lambda) P(I \mid \lambda)$
如果要对它进行参数估计，则可以采用EM算法来实现。我们先要确定完全数据的对数似然函数。此时观测数据为 $O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ ，未观测数据为 $I=\left(i_{1}, i_{2}, \ldots, i_{T}\right)$ ，则完全数据为 $I)=\left(o_{1}, o_{2}, \ldots, o_{T}, i_{1}, i_{2}, \ldots, i_{T}\right)$ ，完全数据的对数似然函数为：
$\ln P(O, I \mid \lambda)$
其中， $\mid \lambda)=\pi_{i_{1}} b_{i_{1} o_{1}} a_{i_{1} i_{2}} b_{i_{2} o_{2}} \cdots a_{i_{T-1} i_{T}} b_{i_{T} o_{T}}$ ，所以可以进一步推得
$\begin{aligned} \ln P(O, I \mid \lambda) &=\ln \left(\pi_{i_{1}} b_{i_{1} o_{1}} a_{i_{1} i_{2}} b_{i_{2} o_{2}} \cdots a_{i_{T-1} i_{T}} b_{i_{T} o_{T}}\right) \\ &=\ln \pi_{i_{1}}+\sum_{t=1}^{T-1} \ln a_{i_{t} i_{t+1}}+\sum_{t=1}^{T} \ln b_{i_{t} o_{t}} \end{aligned}$

EM算法E步：

求Q函数 $Q(\lambda, \bar{\lambda})$
$Q(\lambda, \bar{\lambda})=\sum_{I} P(I \mid O, \bar{\lambda}) \ln P(O, I \mid \lambda)$
其中， $\bar{\lambda}$ 是隐马尔科夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔科夫模型参数。为了便于后续计算，Q函数还可以作如下恒等变形：
$\begin{aligned} Q(\lambda, \bar{\lambda}) &=\sum_{I} P(I \mid O, \bar{\lambda}) \ln P(O, I \mid \lambda) \\ &=\sum_{I} \frac{P(O, I \mid \bar{\lambda})}{P(O \mid \bar{\lambda})} \ln P(O, I \mid \lambda) \end{aligned}$
其中利用了 $P(A\mid B)=\dfrac{P(A, B)}{P(B)}$ 。由于接下来仅极大化 $\lambda$ ， $\mid \bar{\lambda})$ 可以看做常数项进行略去，所以Q函数可以进一化简为：
$\begin{aligned} Q(\lambda, \bar{\lambda}) &=\sum_{I} P(O, I \mid \bar{\lambda}) \ln P(O, I \mid \lambda) \\ &=\sum_{I} P(O, I \mid \bar{\lambda})\left(\ln \pi_{i_{1}}+\sum_{t=1}^{T-1} \ln a_{i_{t} i_{t+1}}+\sum_{t=1}^{T} \ln b_{i_{t} O_{t}}\right) \\ &=\sum_{I} P(O, I \mid \bar{\lambda}) \ln \pi_{i_{1}}+\sum_{I} P(O, I \mid \bar{\lambda})\left(\sum_{t=1}^{T-1} \ln a_{i_{t} i_{t+1}}\right)+\sum_{I} P(O, I \mid \bar{\lambda})\left(\sum_{t=1}^{T} \ln b_{i_{t} o_{t}}\right) \end{aligned}$

EM算法M步：

极大化Q函数。由于要极大化的参数在上式中单独地出现在3个项中，所以只需要对各项分别极大化。

求 $\pi_i$ : Q函数中的第1项可以写成：
$\begin{aligned} \sum_{I} P(O, I \mid \bar{\lambda}) \ln \pi_{i_{1}} &=\sum_{i_{1}, i_{2}, \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln \pi_{i_{1}} \\ &=\sum_{i=1}^{N}\left(\sum_{i_{2}, i_{3}, \ldots, i_{T}} P\left(O, i_{1}=q_{i}, i_{2}, i_{3}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln \pi_{i}\right) \\ &=\sum_{i=1}^{N}\left\{\ln \pi_{i} \cdot\left(\sum_{i_{2}, i_{3}, \ldots, i_{T}} P\left(O, i_{1}=q_{i}, i_{2}, i_{3}, \ldots, i_{T} \mid \bar{\lambda}\right)\right)\right\} \\ &=\sum_{i=1}^{N} \ln \pi_{i} P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right) \end{aligned}$
由于 $\pi$ 满足约束 $\sum_{i=1}^{N} \pi_{i}=1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
$\sum_{i=1}^{N} \ln \pi_{i} P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta\left(\sum_{i=1}^{N} \pi_{i}-1\right)$

对拉格朗日函数关于 $\pi$ 求偏导并令结果为0:
$\begin{gathered} \frac{\partial}{\partial \pi_{i}}\left[\sum_{i=1}^{N} \ln \pi_{i} P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta\left(\sum_{i=1}^{N} \pi_{i}-1\right)\right]=0 \\ \frac{1}{\pi_{i}} \cdot P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta=0 \\ P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta \pi_{i}=0 \end{gathered}$
利用 $\sum_{i=1}^{N} \pi_{i}=1$ ，对上式两边关于i求和可得：
$\begin{gathered} \sum_{i=1}^{N}\left[P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta \pi_{i}\right]=0 \\ \sum_{i=1}^{N} P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\sum_{i=1}^{N} \eta \pi_{i}=0 \\ P(O \mid \bar{\lambda})+\eta \cdot 1=0 \\ \eta=-P(O \mid \bar{\lambda}) \end{gathered}$
将其代回 $P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)+\eta \pi_{i}=0$ 可得：
$\begin{gathered} P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)-P(O \mid \bar{\lambda}) \cdot \pi_{i}=0 \\ \pi_{i}=\frac{P\left(O, i_{1}=q_{i} \mid \bar{\lambda}\right)}{P(O \mid \bar{\lambda})}=P\left(i_{1}=q_{i} \mid O, \bar{\lambda}\right)=\gamma_{1}(i)=\frac{\alpha_{1}(i) \beta_{1}(i)}{\sum_{j=1}^{N} \alpha_{1}(j) \beta_{1}(j)} \end{gathered}$
其中 $\gamma_{t}(i)=\dfrac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$ 表示给定模型参数 $\lambda$ 和观测 $O$ ，在时刻t处于状态 $q_i$ 的概率。

求 $a_{ij}$ ：Q函数中的第2项可以写成：
$\begin{aligned} \sum_{I} P(O, I \mid \bar{\lambda})\left(\sum_{t=1}^{T-1} \ln a_{i_{t}+i_{t+1}}\right) &=\sum_{t=1}^{T-1}\left(\sum_{i_{1}, i_{2}, \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln a_{i_{t} i_{t+1}}\right) \\ &=\sum_{t=1}^{T-1}\left\{\sum_{i=1}^{N} \sum_{j=1}^{N}\left(\sum_{i_{1}, i_{2}, \ldots, i_{t-1}, i_{t+2} \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{t}=q_{i}, i_{t+1}=q_{j}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln a_{i j}\right)\right\} \\ &=\sum_{t=1}^{T-1}\left\{\sum_{i=1}^{N} \sum_{j=1}^{N}\left[\ln a_{i j} \cdot\left(\sum_{i_{1}, i_{2}, \ldots, i_{t-1}, i_{t+2} \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{t}=q_{i}, i_{t+1}=q_{j}, \ldots, i_{T} \mid \bar{\lambda}\right)\right)\right]\right\} \\ &=\sum_{t=1}^{T-1} \sum_{i=1}^{N} \sum_{j=1}^{N} \ln a_{i j} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right) \end{aligned}$
由于 $a_{ij}$ 需要满足约束 $\sum_{j=1}^{N} a_{i j}=1$ ，同样利用拉格朗日乘子法，写出拉格朗日函数：
$\sum_{t=1}^{T-1} \sum_{i=1}^{N} \sum_{j=1}^{N} \ln a_{i j} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\eta\left(\sum_{j=1}^{N} a_{i j}-1\right)$
对拉格朗日函数关于 $a_{ij}$ 求偏导并令结果为0:
$\begin{gathered} \frac{\partial}{\partial a_{i j}}\left[\sum_{t=1}^{T-1} \sum_{i=1}^{N} \sum_{j=1}^{N} \ln a_{i j} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\eta\left(\sum_{j=1}^{N} a_{i j}-1\right)\right]=0 \\ \frac{1}{a_{i j}} \cdot \sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\eta=0 \\ \sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\eta a_{i j}=0 \end{gathered}$
利用 $\sum_{j=1}^{N} a_{i j}=1$ 对上式两边关于j求和可得：
$\begin{gathered} \sum_{j=1}^{N} \sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\sum_{j=1}^{N} \eta a_{i j}=0 \\ \sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i} \mid \bar{\lambda}\right)+\eta \cdot 1=0 \\ \eta=-\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i} \mid \bar{\lambda}\right) \end{gathered}$
将其代回 $\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)+\eta a_{i j}=0$ 可得：
$\begin{gathered} \sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)-\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i} \mid \bar{\lambda}\right) \cdot a_{i j}=0 \\ a_{i j}=\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)}{\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i} \mid \bar{\lambda}\right)} \end{gathered}$
分子分母同时除以 $\mid \bar{\lambda})$
$a_{i j}=\frac{\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i}, i_{t+1}=q_{j} \mid \bar{\lambda}\right)}{P(O \mid \bar{\lambda})}}{\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=q_{i} \mid \bar{\lambda}\right)}{P(O \mid \bar{\lambda})}}=\frac{\sum_{t=1}^{T-1} P\left(i_{t}=q_{i}, i_{t+1}=q_{j} \mid O, \bar{\lambda}\right)}{\sum_{t=1}^{T-1} P\left(i_{t}=q_{i} \mid O, \bar{\lambda}\right)}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i, j)}{\sum_{l=1}^{T-1} \gamma_{t}(i)}$
其中 $\xi_{t}(i, j)=\dfrac{\alpha_{t}(i) a_{i j} b_{j o_{t+1}} \beta_{t+1}(j)}{\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{i j} b_{j o_{t+1}} \beta_{t+1}(j)}$ 表示给定 $\lambda$ 和 $O$ ，在时刻t处于状态 $q_i$ 且在 $t + 1$ 处于 $q_j$ 的概率。 $\gamma_{t}(i)=\dfrac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$ 表示给定模型参数 $\lambda$ 和观测 $O$ ,在时刻t处于状态 $q_i$ 的概率。

求 $b_{jk}$ ：Q函数中的第3项可以写成：
$\begin{aligned} \sum_{I} P(O, I \mid \bar{\lambda})\left(\sum_{t=1}^{T} \ln b_{i_{t} o_{t}}\right) &=\sum_{t=1}^{T}\left(\sum_{i_{1}, i_{2} \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln b_{i_{t} o_{t}}\right) \\ &=\sum_{t=1}^{T}\left\{\sum_{j=1}^{N}\left(\sum_{i_{1}, i_{2}, \ldots, i_{t-1}, i_{t+1}, \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{t}=q_{j}, \ldots, i_{T} \mid \bar{\lambda}\right) \ln b_{j o_{t}}\right)\right\} \\ &=\sum_{t=1}^{T}\left\{\sum_{j=1}^{N}\left[\ln b_{j o_{t}} \cdot\left(\sum_{i_{1}, i_{2}, \ldots, i_{t-1}, i_{t+1}, \ldots, i_{T}} P\left(O, i_{1}, i_{2}, \ldots, i_{t}=q_{j}, \ldots, i_{T} \mid \bar{\lambda}\right)\right)\right]\right\} \\ &=\sum_{t=1}^{T} \sum_{j=1}^{N} \ln b_{j o_{t}} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \end{aligned}$
由于 $b_{jk}$ 需要满足约束条件 $\sum_{k=1}^{M} b_{j k}=1$ ，同样利用拉格朗日乘子法，写出拉格朗日函数
$\sum_{t=1}^{T} \sum_{j=1}^{N} \ln b_{j o_{t}} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right)+\eta\left(\sum_{k=1}^{M} b_{j k}-1\right)$
对拉格朗日函数关于 $b_{jk}$ 求偏导并令结果为0：
$\begin{aligned} &\frac{\partial}{\partial b_{j k}}\left[\sum_{t=1}^{T} \sum_{j=1}^{N} \ln b_{j o_{t}} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right)+\eta\left(\sum_{k=1}^{M} b_{j k}-1\right)\right]=0\\ &\frac{1}{b_{j k}} \cdot \sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)+\eta=0 \\ &\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)+\eta b_{j k}=0 \end{aligned}$
其中， $\mathbb{I}\left(o_{t}=v_{k}\right)$ 为指示函数。首先求导不受 $\sum_{j=1}^{N}$ 约束，所以 $\sum_{j=1}^{N}$ 可以略去。又因为这里有 $ln b_{jo_{t}}$ , $o_t$ 是需要从 $o_1$ 遍历到 $o_{T}$ 的，也就是 $\sum_{t=1}^{T}$ 。如果对于某个 $t$ , $o_t=v_k$ ，那么 $ln b_{jo_{t}}$ 可以求导，如果 $o_t\neq v_k$ ，求导就等于0。也就是说从 $o_1$ 遍历到 $o_{T}$ ，观测序列中可能有不止一个 $o_{t}=v_k$ 。但是我们不知道具体哪几个 $o_t=v_k$ ，所以我们就引入了指示函数。

利用 $\sum_{k=1}^{M} b_{j k}=1$ ，对上式两边关于k求和可得：
$\begin{gathered} \sum_{k=1}^{M} \sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)+\sum_{k=1}^{M} \eta b_{j k}=0 \\ \sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right)+\eta \cdot 1=0 \\ \eta=-\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \end{gathered}$
这里从 $k = 1$ 到 $k = M$ 遍历求和，除了 $o_t=v_k$ 这一项使得指示函数为1，其他项全部为0。所以我们可以去掉指示函数，去掉k保留t，我们不需要知道具体哪个k。
将其代回 $\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)+\eta b_{j k}=0$ ，可得：
$\begin{gathered} \sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)-\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \cdot b_{j k}=0 \\ b_{j k}=\frac{\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)}{\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right)} \end{gathered}$
分子分母同时除以 $\mid \bar{\lambda})$
$b_{j k}=\frac{\frac{\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)}{P(O \mid \lambda)}}{\frac{\sum_{t=1}^{T} P\left(O, i_{t}=q_{j} \mid \bar{\lambda}\right)}{P(O \mid \bar{\lambda})}}=\frac{\sum_{t=1}^{T} P\left(i_{t}=q_{j} \mid O, \bar{\lambda}\right) \mathbb{I}\left(o_{t}=v_{k}\right)}{\sum_{t=1}^{T} P\left(i_{t}=q_{j} \mid O, \bar{\lambda}\right)}=\frac{\sum_{t=1, o_{t}=v_{k}}^{T} \gamma_{t}(j)}{\sum_{t=1}^{T} \gamma_{t}(j)}$
其中， $\gamma_{t}(i)=\dfrac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$ 表示给定模型参数 $\lambda$ 和观测 $O$ ,在时刻t处于状态 $q_i$ 的概率。

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】12. 隐马尔科夫模型（2）

监督学习方法假设已给出训练数据包含S个长度相同的观测序列和对应的状态序列{(O1,I1),(O2,I2),…,(OS,IS)}\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \ldots,\left(O_{S}, I_{S}\right)\right\}{(O1,I1),(O2,I2),…,(OS,IS)}那么可以利用极大似然估计法来估计隐马尔科夫模型，具体方法如下转移概率aija_{ij}aij的估计：aij=Ai
复制链接

扫一扫