Baum-Welch 算法

彬彬侠

已于 2024-12-08 17:55:55 修改

阅读量1.1k

点赞数 25

分类专栏：机器学习(笔记) 文章标签： Baum-Welch算法算法隐马尔可夫模型 HMM 机器学习人工智能

于 2024-12-05 20:59:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013172930/article/details/144275391

版权

机器学习(笔记) 专栏收录该内容

360 篇文章

订阅专栏

Baum-Welch 算法

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\{O_1, O_2, \cdots, O_S\}$ 而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda = (A, B, \pi)$ 的参数。我们将观测序列看作在观测数据 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔可夫模型事实上是一个含有隐变量的概率模型：

$P(O|\lambda) = \sum_{I} P(O, I|\lambda) \tag{10.32}$

它的参数学习可以由 EM 算法实现。

确定完全数据的对数似然函数

所有观测数据写成 $(o_1, o_2, \cdots, o_T)$ ，所有隐数据写成 $(i_1, i_2, \cdots, i_T)$ ，完全数据是 $(o_1, o_2, \cdots, o_T, i_1, i_2, \cdots, i_T)$ 。完全数据的对数似然函数是 $\log P(O, I|\lambda)$
EM 算法的 E 步：求 $Q$ 函数 $Q(\lambda, \hat{\lambda})$

$Q(\lambda, \hat{\lambda}) = \sum_{I} \log P(O, I|\lambda)P(I|\hat{\lambda}) \tag{10.33}$

其中， $\hat{\lambda}$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可夫模型参数。

$I|\lambda) = \pi_{i_1} b_{i_1}(o_1) a_{i_1i_2} b_{i_2}(o_2) \cdots a_{i_{T-1}i_T} b_{i_T}(o_T)$

于是函数 $Q(\lambda, \hat{\lambda})$ 可以写成
$Q(\lambda, \hat{\lambda}) = \sum_{I} \log \pi_{i_1} P(O, I|\hat{\lambda}) + \sum_{I} \left(\sum_{t=1}^{T-1} \log a_{i_t i_{t+1}}\right) P(O, I|\hat{\lambda}) + \sum_{I} \left(\sum_{t=1}^{T} \log b_{i_t}(o_t)\right) P(O, I|\hat{\lambda}) \tag{10.34}$

式中求和都是对所有数据的序列总长度 $T$ 进行的。
EM 算法的 M 步：极大化 $Q$ 函数 $Q(\lambda, \hat{\lambda})$ 求模型参数 $\pi$

由于要极大化的参数在式 (10.34) 中单独地出现在 3 个项中，所以只需将各项分别极大化。

(1) 式 (10.34) 的第 1 项可以写成

$\sum_{I} \log \pi_{i_1} P(O, I|\hat{\lambda}) = \sum_{i=1}^{N} \log \pi_i P(O, i_1 = i|\hat{\lambda})$

注意 $\pi_i$ 满足约束条件 $\sum_{i=1}^{N} \pi_i = 1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
$\sum_{i=1}^{N} \log \pi_i P(O, i_1 = i|\hat{\lambda}) + \gamma \left(\sum_{i=1}^{N} \pi_i - 1\right)$

对其求偏导数并令结果等于0：
$\frac{\partial}{\partial \pi_i} \left[ \sum_{i=1}^{N} \log \pi_i P(O, i_1 = i|\hat{\lambda}) + \gamma \left(\sum_{i=1}^{N} \pi_i - 1\right) \right] = 0 \tag{10.35}$

得：

$i_1 = i|\hat{\lambda}) + \gamma \pi_i = 0$

对 $i$ 求和得到 $\gamma$ ：

$\gamma = -P(O|\hat{\lambda})$

代入式 (10.35) 即得：

$\pi_i = \frac{P(O, i_1 = i|\hat{\lambda})}{P(O|\hat{\lambda})} \tag{10.36}$

(2) 式 (10.34) 的第 2 项可以写成

$\sum_{I} \left(\sum_{t=1}^{T-1} \log a_{i_t i_{t+1}}\right) P(O, I|\hat{\lambda}) = \sum_{i=1}^{N} \sum_{j=1}^{N} \sum_{t=1}^{T-1} \log a_{ij} P(O, i_t = i, i_{t+1} = j|\hat{\lambda})$

类似第 1 项，应用具有约束条件 $\sum_{j=1}^{N} a_{ij} = 1$ 的拉格朗日乘子法可以求出：

$a_{ij} = \frac{\sum_{t=1}^{T-1} P(O, i_t = i, i_{t+1} = j|\hat{\lambda})}{\sum_{t=1}^{T-1} P(O, i_t = i|\hat{\lambda})} \tag{10.37}$

(3) 式 (10.34) 的第 3 项为

$\sum_{I} \left(\sum_{t=1}^{T} \log b_{i_t}(o_t)\right) P(O, I|\hat{\lambda}) = \sum_{j=1}^{N} \sum_{t=1}^{T} \log b_j(o_t) P(O, i_t = j|\hat{\lambda})$

同样用拉格朗日乘子法，约束条件是 $\sum_{k=1}^{M} b_j(k) = 1$ 。注意，只有在 $o_t = v_k$ 时 $b_j(o_t)$ 对 $b_j(k)$ 的偏导数才不为 0，以 $I(o_t = v_k)$ 表示。求得：

$b_j(k) = \frac{\sum_{t=1}^{T} P(O, i_t = j|\hat{\lambda}) I(o_t = v_k)}{\sum_{t=1}^{T} P(O, i_t = j|\hat{\lambda})} \tag{10.38}$

以上部分公式详解的博文：
10.33 Q函数-新参数λ在旧参数λ^下的期望对数似然函数解析
 10.34 Q函数拆分的过程
 Q(λ,λ^)的第一项（与初始状态分布π相关的部分）从隐状态序列 I 的总和形式转换为更具体的形式公式解析
 10.35初始状态分布π的拉格朗日函数对其求偏导数并令结果为0
参数优化中与状态转移概率aij相关公式解析
 10.37状态转移概率aij的更新公式推导过程
 参数优化中与观测概率矩阵B相关公式解析
 10.38观测概率矩阵B中的元素bj(k)更新公式推导过程

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

彬彬侠 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。