机器学习笔记之隐马尔科夫模型(三)

最新推荐文章于 2022-09-14 13:45:09 发布

alwaysRememberrr

最新推荐文章于 2022-09-14 13:45:09 发布

阅读量234

点赞数

分类专栏：机器学习基础笔记文章标签：机器学习

本文链接：https://blog.csdn.net/u014046022/article/details/79836573

版权

机器学习基础笔记专栏收录该内容

17 篇文章 3 订阅

订阅专栏

本文介绍了机器学习中的隐马尔科夫模型（HMM），详细阐述了在监督学习和非监督学习场景下，如何估计模型参数。在监督学习中，通过极大似然估计法计算转移、观测和初始状态概率。而在非监督学习中，通过Baum-Welch算法更新模型参数。

摘要由CSDN通过智能技术生成

学习算法

1.1 监督学习算法

假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 $\{(O_1,I_1),(O_2,I_2),\cdots, (O_s,I_s)\}$ , 那么可以利用极大似然估计来估计隐马尔科夫模型的参数。方法如下：

转移概率 $a_{ij}$ 的估计

设样本中时刻 $t$ 处于状态 $i$ 时刻 $t+1$ 转移到状态 $j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是

a ̂ i j = A i j \sum N j = 1, i = 1, 2, \dots, N, j = 1, 2, \dots, N

$\hat a_{ij} = \frac{A_{ij}}{\sum_{ j = 1}^{N}}, i = 1,2,\cdots,N, j = 1,2,\cdots,N$

观测概率 $b_j(k)$ 的估计

设样本中状态为 $j$ 并观测为 $k$ 的频数是 $B_{jk}$ ，那么状态为 $j$ 观测为 $k$ 的概率 $b_j(k)$ 的估计是

b ̂ = B j k \sum M k = 1 B j k, j = 1, 2, \dots, N; k = 1, 2, \dots, M

$\hat b = \frac{B_{jk}}{\sum_{k =1 }^{M}B_{jk}}, j = 1,2,\cdots,N; k = 1,2,\cdots,M$

初始状态概率 $\pi_i$ 的估计 $\hat \pi_i$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率

1.2 非监督学习算法（Baum-Welch 算法）

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\{O_1,O_2,\cdots,O_s\}$ 而没有对应的状态序列，目标是学习隐马尔科夫模型 $\lambda = (A,B,\pi)$ 的参数，我们将观测序列数据看做观测数据 $O$ , 状态序列数据看做不可观测的隐藏数据 $I$ , 那么隐马尔科夫模型可以看做是一个含有隐变量的模概率模型

P (O | λ) = \sum I P (O | I, λ) P (I | λ)

$P(O|\lambda) = \sum_I P(O|I,\lambda)P(I|\lambda)$
它的参数学习可以由

EM $EM$ 算法实现

算法步骤及推导：

确定完全数据的对数似然函数

所有观测数据写成 $O = (o_1,o_2,\cdots,o_T)$ ，所有隐数据写成 $I = (i_1,i_2,\cdots,i_T)$ ，完全数据是 $(O,I) = (o_1,o_2,\cdots,o_T,i_1,i_2,\cdots,i_T)$ . 完全数据的对数似然函数是 $logP(O,I|\lambda)$ .

$EM$ 算法的 $E$ 步：求 $Q$ 函数 $Q(\lambda,\bar \lambda)$
$Q (λ, λ ¯) = \sum I l o g P (O, I | λ) P (O, I | λ ¯)$ $Q(\lambda,\bar \lambda) = \sum_{I}logP(O,I|\lambda) P(O,I|\bar \lambda)$

其中， $\bar \lambda$ 是隐马尔科夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔科夫模型参数

P (O, I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) \dots a i T - 1 i T b i T (o T)

$P(O,I|\lambda) = \pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_{T}}b_{i_T}(o_T)$

于是 $Q$ 函数可以写成：

Q (λ, λ ¯) = \sum I l o g π i 1 P (O, I | λ ¯) + \sum I (\sum t = 1 T - 1 l o g a i t i t + 1) P (O, I | λ) + \sum I (\sum t = 1 T l o g b i t (o t)) P (O, I | λ)

$\begin{align} Q(\lambda,\bar \lambda) &= \sum_I log \pi_{i_1} P(O,I|\bar \lambda) + \sum_I \big(\sum_{t = 1}^{T-1}loga_{i_ti_{t+1}}\big)P(O,I|\lambda)\\ &+\sum_I \big(\sum_{t = 1}^{T}logb_{i_t}(o_t)\big)P(O,I|\lambda) \end{align}$

式中的求和都是对所有训练数据的序列总长度 $T$ 进行的。

EM 算法的 M 步：极大化 Q 函数，求模型参数 A,B,π

由于要极大化的参数在上面式子中分别单独的出现，所以可以对各项分别极大化
- 第一项计算 $\pi_i$ ,可写成：
  $\sum I l o g π i 0 P (O, I | λ ¯) = \sum I l o g π i 1 P (O, i 1 = i | λ ¯)$ $\sum_I log \pi_{i_0} P(O,I|\bar \lambda) = \sum_I log \pi_{i_1} P(O,i_1 = i|\bar \lambda)$
  注意到 $\pi_i$ 满足约束条件 $\sum_{i=1}^{N} = 1$ , 利用拉格朗日乘子法，写出拉格朗日函数：
  $\sum I l o g π i 1 P (O, i 1 = i | λ ¯) + γ (\sum i = 1 N π i - 1)$ $\sum_I log \pi_{i_1} P(O,i_1 = i|\bar \lambda) + \gamma\big(\sum_{i=1}^N\pi_i -1 \big)$
对上式求偏导并令结果为0

∂∂πi[∑i=1NlogπiP(O,i1=i|λ¯)+γ(∑i=1Nπi−1)]=0

注意到对 πi 求偏导时，只有当下标 i 都相同时才有偏导，否则为0

P(O,i1=i|λ¯)πi+γ=0

P(O,i1=i|λ¯)+γπi=0

因为 πi 一共有 N 个可能的状态，于是对其求偏导可以得到 N 个等式，我们可以对所有的 i 求和：

∑i=1NP(O,i1=i|λ¯)+γ∑i=1Nπi=0

因为 ∑Ni=1πi=1,∑Ni=1P(O,i1=i|λ¯)=P(O,|λ¯) 带入得 :

γ=−P(O|λ¯)

我们将 γ 带入 P(O,i1=i|λ¯)+γπi=0 中可以求出 πi :

πi=P(O,i1=1|λ¯)P(O|λ¯)
- 对第二项极大化
∑I(∑t=1T−1logaitit+1)P(O,I|λ¯)=∑i=1N∑j=1N∑t=1T−1logaijP(O,it=i,it+1=j|λ¯)

类似于第一项的做法，因为状态转移矩阵每行加和为1 所以有 ∑Njaij=1 , 同样用拉格朗日乘子法求解，设拉格朗日函数如下：

∑i=1N∑j=1N∑t=1T−1logaijP(O,it=i,it+1=j|λ¯)+γ(∑j=1Naij−1)

对上式对 aij 求偏导，并令偏导结果为0：

∑T−1t=1P(O,it,it+1=j|λ¯)aij+γ=0

∑t=1T−1P(O,it,it+1=j|λ¯)+γaij=0

这里对 aij 中的 j 求和得,且将 ∑Nj=1aij=1 代入得：

∑j=1N∑t=1T−1P(O,it=i,it+1=j|λ¯)+γ∑j=1Naij=0

因为对 j 求和，计算了所以关于处在 j 状态,所以有下式

∑t=1T−1P(O,it=i|λ¯)+γ=0

解出 γ 并回代入，求得偏导的式子可以解得

aij=∑T−1t=1P(O,it=i,it+1=j|λ¯)∑T−1t=1P(O,it=i|λ¯)
- 第三项可以写成：
  $\sum I (\sum t = 1 T l o g b i t (o t)) P (O, I | λ ¯) = \sum j = 1 N \sum t = 1 T l o g b j (o t) P (O, i t = j | λ ¯)$ $\sum_{I}\big( \sum_{t=1}^Tlogb_{i_t}(o_t)\big) P(O,I|\bar\lambda) = \sum_{j=1}^N \sum_{t=1}^Tlogb_{j}(o_t)P(O,i_t = j| \bar\lambda)$
这里约束条件是 $\sum_{k=1}^Mb_j(k) = 1$ (这里的 $M$ 是可能的观测数)，只有在 $o_t = v_k$ 的时候， $b_j(o_t)$ 对 $b_j(k)$ 的偏导才不为0，这里用指示函数 $I(o_t = v_k)$ 表示，相等为1 否则为0. 写出拉格朗日函数：

∑j=1N∑t=1Tlogbj(ot)P(O,it=j|λ¯)+γ(∑k=1Mbj(k))=0

对 $b_j(k)$ 求偏导得：

∑t=1TP(O,it=j|λ¯)I(ot=vk)+γbj(k)=0

这里对上式中的 $k$ 求和得：

∑t=1TP(O,it=j|λ¯)+γ=0

解出 $\gamma$ 并且回代入最初求的偏导的式中解得：

bj(k)=∑Tt=1P(O,it=j|λ¯)I(ot=vk)∑Tt=1P(O,it=j|λ¯)