隐马尔可夫模型（HHM）学习笔记2

最新推荐文章于 2023-06-28 00:26:14 发布

MaaaMalik

最新推荐文章于 2023-06-28 00:26:14 发布

阅读量438

点赞数

文章标签： HMM EM算法

本文链接：https://blog.csdn.net/MaaaMalik/article/details/90319762

版权

EM算法

整理了李航的书。
EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计，EM算法的每次迭代由两步组成：E步，求期望；M步，求极大。下文仅讨论极大似然估计。
由一个例子引入EM算法：
假设有3枚硬币，分别记作A，B，C。这些硬币正面出现的概率分别为 $\pi$ ， $p$ ， $q$ 。进行如下掷硬币实验：先掷硬币A，若正面则再掷硬币B；若反面则再掷硬币C；记第二次掷硬币的结果，正面记为1，反面记为0；独立地重复 $n$ 次实验（这里 $n = 10$ ），结果如下： $1, 1, 0, 1, 0, 0, 1, 0, 1, 1$ 。假设只能观测到掷硬币的结果，不能观测掷硬币的过程，估计 $\pi$ ， $p$ ， $q$ 。
三硬币模型可以写作： $P\left( {y|\theta } \right) = \sum\limits_z {\left( {y,z|\theta } \right) = \sum\limits_z {P\left( {z|\theta } \right)P\left( {y|z,\theta } \right) = \pi {p^y}{{\left( {1 - p} \right)}^{1 - y}} + \left( {1 - \pi } \right){q^{1 - y}}{{\left( {1 - q} \right)}^q}} }$ 这里随机变量 $y$ 是观测变量，表示某次试验的结果是1或0；随机变量 $z$ 是隐变量，表示未观测到的掷硬币A的结果； $\theta = \left( {\pi ,p,q} \right)$ 是模型参数。
然后求模型 $\theta = \left( {\pi ,p,q} \right)$ 的极大似然估计，即 $\widehat \theta {\text{ = }}\arg \mathop {max}\limits_\theta \log P\left( {Y|\theta } \right)$ 。这个问题没有解析解，只能通过迭代的方法求解。EM算法就是一种解决这类问题的迭算法。

EM算法步骤：
输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P\left( {Y,Z|\theta } \right)$ ，条件分布 $P\left( {Z|Y,\theta } \right)$ ；
输出：模型参数 $\theta$
1）选择参数的初值 ${\theta ^{\left( 0 \right)}}$ ，开始迭代。初值是可以任意选择，但是EM算法是初值敏感的。
2）E步：记 ${\theta ^{\left( i \right)}}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的E步，计算 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = {E_Z}\left[ {\log P\left( {Y,Z|\theta } \right)|Y,{\theta ^{\left( i \right)}}} \right] = \sum\limits_Z {\log P\left( {Y,Z|\theta } \right)P\left( {Z|Y,{\theta ^{\left( i \right)}}} \right)}$ 函数 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 是EM算法的核心，称为Q函数。
3）M步：求使 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数的估计值 ${{\theta ^{\left( i+1 \right)}}}$ ${\theta ^{\left( {i + 1} \right)}} = \arg \mathop {max}\limits_\theta Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 4）重复第2步和第3步，直到收敛。
Q函数的定义：完全数据的对数似然函数 $\log P\left( {Y,Z|\theta } \right)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta ^{\left( i \right)}$ 下对未观测数据 $Z$ 的条件概率分布 $P\left( {Z|Y,{\theta ^{\left( i \right)}}}\right)$ 的期望称为Q函数。
求解上述三硬币问题：
1）选择模型参数初值为 ${\theta ^{\left( 0 \right)}} = \left\{ {0.5,0.5,0.5} \right\}$ 。
2）E步： $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = \sum\limits_Z {\log P\left( {Y,Z|\theta } \right)P\left( {Z|Y,{\theta ^{\left( i \right)}}} \right)} = \sum\limits_{j = 1}^{10} {\sum\limits_{k = 1}^2 {\log P\left( {{y_j},{z_k}|\theta } \right)P\left( {{z_k}|{y_j},{\theta ^{\left( i \right)}}} \right)} } =$ $\begin{matrix}\sum\limits_{j = 1}^{10}\end{matrix}\begin{matrix} {\log {\pi ^{\left( {i + 1} \right)}}{{\left( {{p^{\left( {i + 1} \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( {i + 1} \right)}}} \right)}^{1 - {y_j}}}\frac{{{\pi ^{\left( i \right)}}{{\left( {{p^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( i \right)}}} \right)}^{1 - {y_j}}}}}{{{\pi ^{\left( i \right)}}{{\left( {{p^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( i \right)}}} \right)}^{1 - {y_j}}} + \left( {1 - {\pi ^{\left( i \right)}}} \right){{\left( {{q^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {q^{\left( i \right)}}} \right)}^{1-{y_j}}}}} + } \\ {\log \left( {1 - {\pi ^{\left( i+1 \right)}}} \right){{\left( {{q^{\left( i+1 \right)}}} \right)}^{{y_j}}}{{\left( {1 - {q^{\left( i+1 \right)}}} \right)}^{1-{y_j}}}\frac{{\left( {1 - {\pi ^{\left( i \right)}}} \right){{\left( {{q^{\left( i \right)}}} \right)}^{y_j}}{{\left( {1 - {q^{\left( i \right)}}} \right)}^{1-{y_j}}}}}{{{\pi ^{\left( i \right)}}{{\left( {{p^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( i \right)}}} \right)}^{1 - {y_j}}} + \left( {1 - {\pi ^{\left( i \right)}}} \right){{\left( {{q^{\left( i \right)}}} \right)}^{y_j}}{{\left( {1 - {q^{\left( i \right)}}} \right)}^{1-{y_j}}}}}}\end{matrix}$
3）M步：求使 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 极大化的 $\theta$ 。令 ${\mu_j ^{\left( {i + 1} \right)}} = \frac{{{\pi ^{\left( i \right)}}{{\left( {{p^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( i \right)}}} \right)}^{1 - {y_j}}}}}{{{\pi ^{\left( i \right)}}{{\left( {{p^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{\left( i \right)}}} \right)}^{1 - {y_j}}} + \left( {1 - {\pi ^{\left( i \right)}}} \right){{\left( {{q^{\left( i \right)}}} \right)}^{{y_j}}}{{\left( {1 - {q^{\left( i \right)}}} \right)}^{1 - {y_j}}}}}$ ${\bf \frac{{\partial Q}}{{\partial {\pi ^{\left( {i + 1} \right)}}}}} = \sum\limits_{j = 1}^{10} {\frac{{{\mu_j ^{\left( i+1 \right)}}}}{{{\pi ^{\left( {i + 1} \right)}}}} - \frac{{1 - {\mu_j ^{\left( i+1 \right)}}}}{{1 - {\pi ^{\left( {i + 1} \right)}}}}} = 0$ $\Rightarrow\sum\limits_{j = 1}^{10} {{\mu_j ^{\left( i+1 \right)}}\left( {1 - {\pi ^{\left( {i + 1} \right)}}} \right) - \left( {1 - {\mu_j ^{\left( i+1 \right)}}} \right){\pi ^{\left( {i + 1} \right)}}} = 0$ $\Rightarrow{\pi ^{\left( {i + 1} \right)}} = {\bf\frac{{\sum\limits_{i = 1}^{10} {{\mu_j ^{\left( i+1 \right)}}} }}{{10}}}$ ${\bf \frac{{\partial {\text{Q}}}}{{\partial {p^{\left( {i + 1} \right)}}}}} = \sum\limits_{j = 1}^{10} {\frac{{{\mu _j}^{\left( {i + 1} \right)}\left( {{y_i}{{\left( {{p^{\left( {i + 1} \right)}}} \right)}^{{y_i} - 1}}{{\left( {1 - {p^{\left( {i + 1} \right)}}} \right)}^{1 - {y_i}}} - \left( {1 - {y_i}} \right){{\left( {{p^{\left( {i + 1} \right)}}} \right)}^{{y_i}}}{{\left( {1 - {p^{\left( {i + 1} \right)}}} \right)}^{ - {y_i}}}} \right)}}{{{{\left( {{p^{\left( {i + 1} \right)}}} \right)}^{{y_i}}}{{\left( {1 - {p^{\left( {i + 1} \right)}}} \right)}^{1 - {y_i}}}}}} = 0$ $\Rightarrow \sum\limits_{j = 1}^{10} {{\mu _j}^{\left( {i + 1} \right)}\left[ {{y_j}\left( {1 - {p^{\left( {i + 1} \right)}}} \right) - \left( {1 - {y_j}} \right){p^{\left( {i + 1} \right)}}} \right]} = 0$ $\Rightarrow \sum\limits_{j = 1}^{10} {{\mu _j}^{\left( {i + 1} \right)}{y_j}} = {p^{\left( {i + 1} \right)}}\sum\limits_{j = 1}^{10} {{\mu _j}^{\left( {i + 1} \right)}} \Rightarrow {\bf{p^{\left( {i + 1} \right)}} = \frac{{\sum\limits_{j = 1}^{10} {{\mu _j}^{\left( {i + 1} \right)}{y_j}} }}{{\sum\limits_{j = 1}^{10} {{\mu _j}^{\left( {i + 1} \right)}} }}}$ 同理，由 ${\bf \frac{{\partial {\text{Q}}}}{{\partial {q^{\left( {i + 1} \right)}}}} = 0}$ 得 ${\bf{q^{\left( {i + 1} \right)}} = \frac{{\sum\limits_{j = 1}^{10} {\left( {1 - {\mu _j}^{\left( {i + 1} \right)}} \right){y_j}} }}{{\sum\limits_{j = 1}^{10} {1 - {\mu _j}^{\left( {i + 1} \right)}} }}}$

EM算法的收敛性

定理一：设 $P\left( {Y|\theta } \right)$ 为观测数据的似然函数， ${\theta ^{\left( i \right)}}\left( {i = 1,2, \cdots } \right)$ 为EM算法得到的参数估计序列， $P\left( {Y|{\theta ^{\left( i \right)}}} \right)\left( {i = 1,2, \cdots } \right)$ 为对应的似然函数序列，则 $P\left( {Y|{\theta ^{\left( i \right)}}} \right)$ 是单调递增的，即 $P\left( {Y|{\theta ^{\left( {i + 1} \right)}}} \right) \geqslant P\left( {Y|{\theta ^{\left( i \right)}}} \right)$ 。
定理二：设 $L\left( \theta \right) = \log P\left( {Y|\theta } \right)$ 为观测数据的对数似然函数， ${\theta ^{\left( i \right)}}\left( {i = 1,2, \cdots } \right)$ 为EM算法得到的参数估计序列， $L\left( {{\theta ^{\left( i \right)}}} \right)\left( {i = 1,2, \cdots } \right)$ 为对应的对数似然函数序列。
1）如果 $\log P\left( {Y|\theta } \right)$ 有上界，则 $L\left( {{\theta ^{\left( i \right)}}} \right) = \log P\left( {Y|{\theta ^{\left( i \right)}}} \right)$ 收敛到某一值 ${L^*}$ ；
2）在函数 $Q\left( {\theta ,{\theta^\prime}} \right)$ 与 $L\left( \theta \right)$ 满足一定条件下，由EM算法得到的参数估计序列 $\theta ^{\left( i \right)}$ 的收敛值 ${\theta ^ * }$ 是 $L\left( \theta \right)$ 的稳定点。
EM算法的收敛性包含关于对数似然函数序列 $L\left( {{\theta ^{\left( i \right)}}} \right)$ 的收敛性和关于参数估计序列 $\theta ^{\left( i \right)}$ 的收敛性两层意思，前者不包括后者。定理只能保证参数估计序列收敛到对数似然函数序列的稳定点，不能保证收敛到极大值点。
下一篇《隐马尔可夫模型的训练》