有监督HMM参数求解的推导

最新推荐文章于 2022-10-15 20:10:51 发布

fenss

最新推荐文章于 2022-10-15 20:10:51 发布

阅读量243

点赞数

文章标签：机器学习隐马尔科夫模型

本文链接：https://blog.csdn.net/fenss/article/details/114525116

版权

首先需要明确，HMM学习的目标函数到底是什么：HMM是一种有向概率图模型，在有监督的情况下，使用极大似然估计最大化联合概率，求解最优的参数，即：

$L(\theta) = p(x, z| \theta)$

$x$ 是观测序列， $z$ 是状态序列，联合概率表示为：

$\theta) = \prod_{t = 0}^{T - 1} p(x_{t + 1}| z_{t + 1}, \theta) p(z_{t + 1}| z_{t}, \theta)$

取对数：

$\bigg( p(x, z| \theta) \bigg) = \sum_{t = 1}^{T}log \bigg( p(x_t| z_t, \theta) \bigg) + \sum_{t = 1}^{T - 1}log \bigg( p(z_{t + 1}| z_t, \theta) \bigg)$

假设 $x_t \in \{1, 2, \dots, O\}$ ， $z_t \in \{1, 2, \dots, H\}$ ，发射概率矩阵记为 $A$ ，转移概率矩阵记为 $B$ ， $A_{h, o}$ 在数据中的计数为 $e_{h, o}$ ， $B_{j, k}$ 在数据中的计数为 $f_{j, k}$ ，似然函数改写为：

$\bigg( p(x, z| \theta) \bigg) = \sum_{h = 1}^{H}\sum_{o = 1}^{O} e_{h, o}log(A_{h, o}) + \sum_{j = 1}^{H}\sum_{k = 1}^{O} f_{j, k}log(B_{j, k})$

因此最终的优化问题为：

$\begin{array}{rcl} \max && \displaystyle \sum_{h = 1}^{H}\sum_{o = 1}^{O} e_{h, o}log(A_{h, o}) + \sum_{j = 1}^{H}\sum_{k = 1}^{O} f_{j, k}log(B_{j, k}) \\ s.t. && \displaystyle \sum_{o = 1}^{O}A_{h, o} = 1, \sum_{k = 1}^{H}B_{j, k} = 1 \end{array}$

使用拉格朗日乘数法：

$\sum_{h = 1}^{H}\sum_{o = 1}^{O} e_{h, o}log(A_{h, o}) + \sum_{j = 1}^{H}\sum_{k = 1}^{O} f_{j, k}log(B_{j, k}) \newline -\sum_{h = 1}^{H}\alpha_h \bigg( \sum_{o = 1}^{O}{A_{h, o} - 1} \bigg) \newline -\sum_{j = 1}^{H}\beta_j \bigg( \sum_{k = 1}^{H}{B_{j, k} - 1} \bigg)$

对 $A$ 、 $B$ 求偏导数得：

$\frac{\partial{L}}{\partial{A_{h, o}}} = \frac{e_{h, o}}{A_{h, o}} - \alpha_h = 0 \newline \frac{\partial{L}}{\partial{B_{j, k}}} = \frac{f_{j, k}}{B_{j, k}} - \beta_j = 0 \newline \frac{\partial{L}}{\partial{\alpha_h}} = \sum_{o = 1}^{O}{A_{h, o} - 1} \newline \frac{\partial{L}}{\partial{\beta_j}} = \sum_{k = 1}^{H}{B_{j, k} - 1}$

把 $A$ 、 $B$ 代入约束条件得：

$\alpha_h = \sum_{o = 1}^{O}e_{h, o} \newline \beta_j = \sum_{k = 1}^{H}f_{j, k}$

代入增广函数：

$\sum_{h = 1}^{H}\sum_{o = 1}^{O} e_{h, o}log(A_{h, o}) + \sum_{j = 1}^{H}\sum_{k = 1}^{O} f_{j, k}log(B_{j, k}) \newline -\sum_{h = 1}^{H}\sum_{o = 1}^{O}e_{h, o} \bigg( \sum_{o = 1}^{O}{A_{h, o} - 1} \bigg) \newline -\sum_{j = 1}^{H}\sum_{k = 1}^{H}f_{j, k} \bigg( \sum_{k = 1}^{H}{B_{j, k} - 1} \bigg)$

重新对 $A$ 、 $B$ 求偏导数得：

$\frac{\partial{L}}{\partial{A_{h, o}}} = \frac{e_{h, o}}{A_{h, o}} - \sum_{o = 1}^{O}e_{h, o} = 0 \newline \frac{\partial{L}}{\partial{B_{j, k}}} = \frac{f_{j, k}}{B_{j, k}} - \sum_{k = 1}^{H}f_{j, k} = 0$

最后的结果与直观认知一致（认知与推导一致是偶然的）：

$A_{h, o} = \frac{e_{h, o}}{\displaystyle\sum_{o = 1}^{O}e_{h, o}} \newline B_{j, k} = \frac{f_{j, k}}{\displaystyle\sum_{k = 1}^{H}f_{j, k}}$

fenss

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
有监督HMM参数求解的推导

首先需要明确，HMM学习的目标函数到底是什么：HMM是一种有向概率图模型，在有监督的情况下，使用极大似然估计最大化联合概率，求解最优的参数，即：L(θ)=p(x,z∣θ)L(\theta) = p(x, z| \theta)L(θ)=p(x,z∣θ)xxx是观测序列，zzz是状态序列，联合概率表示为：p(x,z∣θ)=∏t=0T−1p(xt+1∣zt+1,θ)p(zt+1∣zt,θ)p(x, z| \theta) = \prod_{t = 0}^{T - 1} p(x_{t + 1}
复制链接

扫一扫