隐马尔科夫模型（三）学习算法

最新推荐文章于 2021-12-13 17:19:54 发布

qq_16608563

最新推荐文章于 2021-12-13 17:19:54 发布

阅读量285

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_16608563/article/details/84643421

版权

机器学习专栏收录该内容

32 篇文章 3 订阅

订阅专栏

隐马尔科夫模型的学习，根据训练数据时包括观测序列和对应的状态序列还是只有观测序列，可以分别有监督学习和非监督学习实现。

监督学习方法

假设已给的训练数据中，包含S个长度相同的观测序列和对应的状态序列
${(O_1,I_1),(O_2,I_2)……(O_S,I_S)\}$ ,那么可以利用极大似然估计法估计隐马尔科夫模型的参数，具体如下：
1）转移概率 $a_{ij}$ 的估计
设样本中时刻t处于状态i时刻t+1转移到状态j的频数为A_{ij}，那么状态转移概率 $a_{ij}$ 的估计为：
$a_{ij}=\frac{A_{ij}}{\displaystyle\sum_{j=1}^{N}A_{ij}}$

2)观测概率 $b_j(k)$ 的估计
设样本中状态为j并观测为k的频数为 $B_{jk}$ ,那么状态为j观测为k的概率 $b_j(k)$ 的估计是：
$b_j(k)=\frac{B_{jk}}{\displaystyle\sum_{k=1}^{M}B_{jk}}$

3)初始状态概率 $π_i$ 的估计为S个样本中初始状态为 $q_i$ 的频率。

由于监督学习需要使用训练数据，而人工标注训练数据的代价很高，有时就会使用非监督学习方法。

鲍尔-韦尔奇算法

假设给定训练数据只包含S个长度为T的观测序列 ${O_1,O_2…O_S\}$ ，而没有对应的状态序列，目标是学习隐马尔科夫模型 $λ = (A, B, π)$ ,我们将观测序列数据看做观测数据O,状态序列看做不可观测的隐数据 $I$ ,那么隐马尔科夫模型事实上是一个含有隐变量的概率模型。
$P(O|λ)=\displaystyle\sum_{I}P(O|I,λ)P(I|λ)$
他的参数可又EM算法实现。
1）确定完全数据的对数似然函数
所有的观测数据写成 $O=(o_1,o_2,……o_T)$ ,所有隐数据写成 $I={(i_1,i_2……i_T)}$ 完全数据时 $O,I)=(o_1,o_2,……o_T,i_1,i_2……i_T)$
完全数据的对数似然函数是 $l o g P (O, I ∣ λ)$

E步：求 $Q$ 函数
（完全数据的对数似然函数log(Y,Z|θ)关于在给定观测数据Y和当前参数 $θ^{(i)}$ 下对未观测数据Z的条件概率分布 $P(Z|Y,θ^{(i)})$ 的期望。）

$Q(λ,λ')=\displaystyle\sum_{I}logP(O,I|λ)P(I|O,λ')$
( $λ^{'}$ 是隐马尔科夫模型参数的当前估计值，λ是要极大化的隐马尔科夫模型参数)
M步：极大化Q函数

$λ^*=argmax\displaystyle\sum_{I}logP(O,I|λ)P(I|O,λ')$

联合分布的概率计算如下：
$P(O,I|λ)=π_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)…a_{i_{T-1}i_T}b_{i_T}(o_T)$

针对E步：
$Q(λ,λ')=\displaystyle\sum_{I}logP(O,I|λ)P(I|O,λ')$

其中，由于 $P(I|O,λ')=\frac{P(O,I|λ')}{P(O|λ')}$ ，而 $P (O ∣ λ^{'})$ 是常数，因此我们要极大化的式子等价于
$λ^*=argmax\displaystyle\sum_{I}logP(O,I|λ)P(I,O|λ')$

将上面的 $P (O, I ∣ λ)$ 的表达式带入我们需要极大化的式子，可得
于是：

$λ^*=argmax\displaystyle\sum_{I}logπ_{i_1}P(I,O|λ')+\displaystyle\sum_{I}(\displaystyle\sum_{t=1}^{T-1}loga_{i_ti_{t+1}})P(I,O|λ')+\displaystyle\sum_{I}(\displaystyle\sum_{t=1}^{T}logb_{i_t}(o_t))P(I,O|λ')$ (目标函数)

要求隐藏模型参数 $λ = (A, B, π)$ ，我们只需要对上式分别对 $A, B, π$ 求导即可得到我们更新的模型参数 $λ^{'}$

观测上式发现要极大化的参数分别单独的出现在三个项中，所以只需对各项分别最大化。

$π^*=argmax\displaystyle\sum_{I}logπ_{i}P(I,O|λ')=argmax\displaystyle\sum_{i=1}^{N}logπ_{i}P(O,i_1=i|λ')$
由于 $π_{i}$ 还满足 $\displaystyle\sum_{i=1}^{N}π_{i}=1$
因此根据拉格朗日乘子法，我们可以得到 $π_{i}$ 要极大化的拉格朗日函数为：
$\displaystyle\sum_{i=1}^{N}logπ_{i}P(O,i_1=i|λ')+γ(\displaystyle\sum_{i=1}^{N}π_{i}-1)$
对其求偏导并令结果为0得到：

$P(O,i_1=i|λ')+γπ_i=0$ (化简后的)

令i分别等于从1到N,从上式可以得到N个式子，对这N个式子求和可得：

$P (O ∣ λ^{'}) + γ = 0$ 得出 $γ = - P (O ∣ λ^{'})$

则 $π_i=\frac{P(O,i_1=i|λ')}{P(O|λ')}$

由贝叶斯公式： $\frac{P(O,i_1=i|λ')}{P(O|λ')}=P(i_1=i|O,λ')=γ_1(i)$

目标函数的第二项可以写成：
$\displaystyle\sum_{I}(\displaystyle\sum_{t=1}^{T-1}loga_{i_ti_{t+1}})P(I,O|λ')=\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{j=1}^{N}\displaystyle\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|λ')$

同时具有约束条件： $\displaystyle\sum_{j=1}^{N}a_{ij}=1$ ,则拉格朗日函数为：
$\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{j=1}^{N}\displaystyle\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|λ')+γ(\displaystyle\sum_{j=1}^{N}a_{ij}-1)$

对 $a_{ij}求导可得$
$\displaystyle\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|λ')+γa_{ij}=0$
令j 等于从1到N，可以得到N个式子，相加可得
$\displaystyle\sum_{t=1}^{T-1}P(O,i_t=i|λ')+γ=0$

则： $γ=-\displaystyle\sum_{t=1}^{T-1}P(O,i_t=i|λ')$

$a_{ij}=\frac{\displaystyle\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|λ')}{\displaystyle\sum_{t=1}^{T-1}P(O,i_t=i|λ')}$

$=\frac{\displaystyle\sum_{t=1}^{T-1}ξ_t(i,j)}{\displaystyle\sum_{t=1}^{T-1}γ_t(i)}$

3)针对第三项
$\displaystyle\sum_{I}(\displaystyle\sum_{t=1}^{T}logb_{i_t}(o_t))P(I,O|λ')=\displaystyle\sum_{j=1}^{N}\displaystyle\sum_{t=1}^{T}logb_j(o_t))P(O,i_t=j|λ')$

同样用拉格朗日乘子法，约束条件为 $\displaystyle\sum_{k=1}^{M}b_j(k)=1$

$\displaystyle\sum_{j=1}^{N}\displaystyle\sum_{t=1}^{T}logb_j(o_t))P(O,i_t=j|λ')+γ(\displaystyle\sum_{k=1}^{M}b_j(k)-1)$

对 $b_j(o_t)$ 求导，注意只有当 $o_t=v_k时，b_j(o_t)对b_j(k)$ 的偏导数才不为0，以 $I(o_t=v_k)$ 表示：
$\displaystyle\sum_{t=1}^{T}P(O,i_t=j|λ')I(o_t=v_k)+γb_j(k)=0$
令 k 取1到M个值，然后相加
$\displaystyle\sum_{t=1}^{T}P(O,i_t=j|λ')+γ=0$
得到 $γ=-\displaystyle\sum_{t=1}^{T}P(O,i_t=j|λ')$

则： $b_j(k)=\frac{\displaystyle\sum_{t=1}^{T}P(O,i_t=j|λ')I(o_t=v_k)}{\displaystyle\sum_{t=1}^{T}P(O,i_t=j|λ')}$

分子分母同时除以 $P (O ∣ λ^{'})$

$b_j(k)=\frac{\displaystyle\sum_{t=1}^{T}P(i_t=j|O,λ')I(o_t=v_k)}{\displaystyle\sum_{t=1}^{T}P(i_t=j,O|λ')}$

$b_j(k)=\frac{\displaystyle\sum_{t=1}^{T}γ_t(j)I(o_t=v_k)}{\displaystyle\sum_{t=1}^{T}γ_t(j)}$

Baum-Welch算法流程：
输入：观察数据 $O=(o_1,o_2,……o_T)$
输出：隐马尔科夫模型参数

1）初始化
对n=0,选取 $a_{ij}^{(0)},b_j(k)^{(0)},π_i^{(0)},得到模型参数λ^{(0)}=(A^{(0)},B^{(0)},π^{(0)})$

2)递推，对于n=1,2……

$a_{ij}^{(n+1)}=\frac{\displaystyle\sum_{t=1}^{T-1}ξ_t(i,j)}{\displaystyle\sum_{t=1}^{T-1} γ_t(i)}$

$b_j(k)^{(n+1)}=\frac{\displaystyle\sum_{t=1}^{T}γ_t(j)I(o_t=v_k)}{\displaystyle\sum_{t=1}^{T}γ_t(j)}$

$π_i^{(n+1)}=γ_1(i)$

右端各值根据观察数据 $O=(o_1,o_2,……o_T)$ 和模型 $λ^{(n)}=(A^{(n)},B^{(n)},π^{(n)})$ 计算。

3）终止。得到模型参数 $λ^{(n+1)}=(A^{(n+1)},B^{(n+1)},π^{(n+1)})$

qq_16608563

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
隐马尔科夫模型（三）学习算法

隐马尔科夫模型的学习，根据训练数据时包括观测序列和对应的状态序列还是只有观测序列，可以分别有监督学习和非监督学习实现。监督学习方法假设已给的训练数据中，包含S个长度相同的观测序列和对应的状态序列{(O1,I1),(O2,I2)……(OS,IS)}\{(O_1,I_1),(O_2,I_2)……(O_S,I_S)\}{(O1,I1),(O2,I2)……(OS,IS)},那么可以利用极...
复制链接

扫一扫