MLI_09 HMM(隐马尔可夫模型)

最新推荐文章于 2024-07-19 16:33:18 发布

w317672256

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量623

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/w317672256/article/details/97164454

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HMM 隐马尔可夫模型

总结（来源-李航-统计学习方法和学校课件）
HMM是Markov Chain模型
HMM是结构最简单的动态贝叶斯网(dynamic Bayesian network),这是著名的有向图模型，可用于标注问题的统计学习模型

定义

HMM 是关于时序的概率模型，描述有一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。
HMM随机生成的状态序列 state sequence
每个状态生成一个观测，所有观测组成——观测序列 oberservation sequence。
λ=（A,B,π）分别为概率转移矩阵，观测概率矩阵和初始状态概率矩阵
π Anfangszustandwahrscheinlichkeiten
A Übergangswahrscheinlichkeiten
例子
在这里插入图片描述
给了状态转移矩阵，那么未来七天是。。。的概率是多少?
今天已经是sonnig
P(O|Modell)=P(S3)P(S3|S3)P(S3|S3)P(S1|S3)P(S1|S1)P(S3|S1)P(S2|S3)P(S3|S2)=10.80.80.10.40.30.10.2
(行是当前状态，列对应下一状态）

两个基本假设

Beschränkter Horizont (观测独立性假设)

当前时刻的概率依赖于过去的时刻
zeitinvarianz（时不变）

转移概率矩阵与当前时刻无关

例题

在这里插入图片描述
观测O={红，红，白，白，红}
状态Q={盒子1，盒子2，盒子3，盒子4}
状态转移概率A=[ 0 1 0 0; 0.4 0 0.6 0; 0 0.4 0 0.6; 0 0 0.5 0.5]
观测概率B=[0.5 0.5; 0.3 0.7; 0.6 0.4; 0.8 0.2]
初始概率分布π=[0.25 0.25 0.25 0.25]

观测序列生成算法

已知：λ=（A,B,π），观测长度T
求观测O
1. 根据π求出状态1-i1
2. t=1
3. 根据it和B求Ot
4. 根据Ot求it+1
5. t=t+1， t<T?goto 3 : end

3个基本问题

概率计算问题（Evaluationsproblem）
给定模型λ和观测O，计算P（O|λ）
预测问题(Dekodierungsproblem)
已知模型λ和观测O，求出最可能的序列Q
学习问题（Lern- und Optimierungsproblem）
已知观测O，求出模型λ

理解例子：单词识别
Problem 3：为了识别每一个单词训练最优HMM模型
Problem 2：理解构建的模型，为了更有意义的改进（也可以用于识别单词）
Problem 1：通过最好的模型识别未知的单词

Problem 1

直接计算法（Naiver Ansatz）

其中，

和

先求固定序列Q，再求观测序列O
算法耗时O(2T*N^T)
改进算法
向前算法和向后算法（vorwärts-Algorithm）
例子

算法vorwärts-Algorithm
一. Initialisierung
$a_{1}(i)=\pi_{Si}b_{Si}(o1), \forall i \in\ 1,...N$
二. Induktion(递推）
$a_{t+1}(j)=[\sum_{i=1}^n a_{t}(i)a_{ij}]b_{j}(o_{t+1}), 1\le t\le T-1$
三. Terminierung
$P(O|\lambda)=\sum_{i=1}^n a_{T}(i)$
Aufwand: $O(N^{2}T)$
算法(rückwärts-Algorithm)
一. Initialisierung
$\beta_{t}(i)=1,$
二. Induktion
对于t=T-1,t=T-2,…,1
$\beta_{t}(i)=\sum_{j=1}^n a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j), 1\le t\le T-1, \forall i \in \{1,...,N\}$
三. Terminierung
$P(O|\lambda)=\sum_{j=1}^N \pi_{j} b_{j}(o1)\beta_{1}(j)$

Problem 2 Decodisierungsproblem

近似算法（Optimalitätskriterium）
$P(O|\lambda)=\sum_{j=1}^N a_{t}(j) \beta_{t}(j)$
Wahrscheinlichkeit $\gamma_{t}(i)=P(q_{t}=S_{i}|O,\lambda)=\frac{P(q_{t}=S_{i},O|\lambda}{P(O|\lambda)}= \frac{a_t(i) \beta_t(i)}{\sum_{j=1}^N a_t(j)b_t(j)}$
最有可能的解
$q_t=arg\max_{1\le i\le N}\gamma_t(i), 1\le t\le T-1$
Problem:
Bei nicht vollständig vernetztem HMM ergibt dies unter Umständen keinen gültigen Pfad
z.B. wenn bestes $q_t=S_i \space und \space q_{t+1}=S_j \space aber \space a_{ij}=0$
优点是计算简单，缺点就是上述的问题，有可能求出的最优序列不存在
Viterbi-Algorithm（维特比算法）
Viterbi-Algorithm实际上使用dynamic programming求概率最大路径（最优路径）。这时路径上对应一个状态序列。局部最优组成整体最优
算法
一. Initialisierung
$v_1(i)=\pi_{S_i}b_{S_i}(O_1),\forall i \in \{1,...,N\}$
二. Berechnung für alle $S_j\in S,\forall j \in \{1,...N\} \space und \space 2\le t\le T-1,$
$v_t(S_j)=b_j(o_t)\max_{1\le i\le N}[v_{t-1}(S_i)a_{ij},\psi_t(j)=arg\max_{1\le j\le N}[v_t(S_j)a_{ij}$
三. Bestimmung des Maximums der Gütewerte
$v^*=\max_{1\le j\le N}[v_t(S_j)]$
四. Endnotes der besten Pfaden
$q_t^*=arg\max_{1\le j\le N}[v_t(S_j)]$
五. Bestimmung der Vitebi-Pfads rückwarts
$q_t^*=\psi_{t+1}(q_{t+1}^*)$
他与vorwärts-Algorithm的区别就是用Maximierung代替Summierung，这里也正好回答了最后一个习题问题

（试用viterbi algorithm求一下最佳路径）

Problem 3 Lern- und Optimisierungsproblem

三个问题中最不好解决的，用Baum-Welch-Algorithm只能得到lokale Maximierung
Baum-Welch-Algorithm 也是EM(Expectation-Maximum-Algorithm）
算法
一. Beginne, mit zufälligem Modell λ, berechne $P(O_{training}|\lambda)$
二. Schleife: (进入EM算法吧）
三. E_Schritt: Bestimme die erwartete Anzahl von Zustandsübergängen (aus und zwischen Zuständen) und Symbolausgaben (求Q函数
$Q(\lambda,\bar{\lambda})=\sum_I log \pi_{i_1}P(O,I|\bar{\lambda})+\sum_I (\sum_{t=1}^{T-1}log a_{i_t i_{t+1}})P(O,I| \bar{\lambda})+\sum_I(\sum_{t=1}^Tlogb_{i_t}(o_t))P(O,I|\bar{\lambda})$
四. M_Schritt: Neuschätzung der Übergangs- und Emissionswahrscheinlichkeiten-> Berechnung einer neue Modells
五. Wenn (lokales) Maximum erreicht ist
六. Break
定义一个Zustandsübergangs von Si zum Sj $\xi(i,j)=P(q_t=S_i,q_{t+1}=S_j|O,\lambda)=\frac{a_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{P(O|\lambda)}=\frac{a_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^Na_t(j)a_{ij}b_j(o_{t+1}\beta_{t+1}(j)}$
Wahscheinlichkeit
$\gamma_t(i)=\sum_{j=1}^N\xi_t(i,j)$
公式就可以简化成
$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$
$b_{j}(k)=\frac{\sum_{t=1,o_t=v_k}^{T}\gamma_t(i)}{\sum_{t=1}^{T}\gamma_t(i)}$
$\pi=\gamma_1(i)$
所以Baum-Welch算法
一. 初始化 n=0，选取a0,b0,pai0
二. 递推. 对n=1,2
算出n+1的各个式子，按照n时的模型计算
三. 终止，所以这个是次数终止

w317672256

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MLI_09 HMM(隐马尔可夫模型)

HMM 隐马尔可夫模型总结（来源-李航-统计学习方法和学校课件）可用于标注问题的统计学习模型定义HMM 是关于时序的概率模型，描述有一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。HMM随机生成的状态序列 state sequence每个状态生成一个观测，所有观测组成——观测序列 oberservation sequence。λ=（A...
复制链接

扫一扫