概率图模型

灯塔先生

于 2019-04-23 23:15:04 发布

阅读量228

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/qq_40722284/article/details/89482820

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

生成式模型和判别式模型

判别式模型是直接基于后验条件概率进行建模，而生成模型是对联合分布进行建模。

假设已有训练数据（X,Y），X是属性集合，Y是类别标记。

我们最终的目的是求得最大的条件概率P(y|x)作为样本的分类。只是两个模型做法不一样。

判别式模型

依据训练数据得到一个分类函数和分界面，比如使用SVM得到一个分界面，然后直接计算P(y|x)，将最大的值作为x的分类类别，判别式模型不能反映数据本身特性，能力有限，只能告诉我们类别。

生成式模型

对每一个分类进行建模，有多少类别建多少模型。比如三个类｛a,b,c｝,分别建立一个有关a,b,c的模型，然后对新的测试样本d,和每一个模型计算联合概率分布P(a,d)，P(b,d)，P(c,d)，然后根据贝叶斯公式计算P(a|d)，P(b|d)，P(c|d)，选一个最大的作为分类结果。

两者的联系

判别式模型可以由生成式模型生成，因为生成式模型线得到联合分布，再得到后验概率分布。可以得到更多的信息。

概率图模型

用图表达变量相关关系的概率模型。点代表随机变量（一个或一组），边代表变量的概率相关关系。

类别

有向无环图：有向图模型或贝叶斯网

隐马尔可夫模型（HMM）--时序数据建模--语音识别、NLP--生成式模型

无向图：无向图模型或马尔可夫网

马尔可夫随机场（MRF）--生成式模型
条件随机场（CRF）--判别式模型

隐马尔可夫模型（HMM）

两组变量

状态变量：又称隐变量，表示第i时刻系统状态，假设不可被观测。可在多个状态之间转换，有N个可能取值的离散空间
观察变量：表示第i时刻观察值，可离散可连续，以离散为例

组成HMM模型的条件

两个基本假设

齐次马尔科夫假设：状态变量之间遵循马尔可夫性；
观测独立性假设：观察变量只依赖于当前时刻的状态变量；

基于上述条件，所有变了联合分布为

$P\left(x_{1}, y_{1}, \ldots, x_{n}, y_{n}\right)=P\left(y_{1}\right) P\left(x_{1} | y_{1}\right) \prod_{i=2}^{n} P\left(y_{i} | y_{i-1}\right) P\left(x_{i} | y_{i}\right)$

三组参数

状态转移概率，记为矩阵 $\mathbf{A}=$$\left[a_{i j}\right]_{N \times N}$

$a_{i j}=P\left(y_{t+1}=s_{j} | y_{t}=s_{i}\right), \quad 1 \leqslant i, j \leqslant N$

输出观测概率，记为矩阵 $\mathbf{B}=\left[b_{i j}\right]_{N \times M}$

$b_{i j}=P\left(x_{t}=o_{j} | y_{t}=s_{i}\right), \quad 1 \leqslant i \leqslant N, 1 \leqslant j \leqslant M$

初始状态概率，记为 $\pi=\left(\pi_{1}, \pi_{2}, \dots, \pi_{N}\right)$

$\pi_{i}=P\left(y_{i}=s_{i}\right), \quad 1 \leqslant i \leqslant N$

状态变量组成状态空间Y + 观测变量组成观测空间X + 三组参数 = HMM,参数表示为 $\lambda=[\mathbf{A}, \mathbf{B}, \boldsymbol{\pi}]$

给定参数，按下列步骤产生观测序列：

t = 1，根据初始状态概率得到初始状态y1;
由yt和输出观测概率得到观测变量x1；
由yt和状态转移概率得到下一时刻状态yt+1;
t<n，设置t = t + 1，转到第二步，否则终止；

HMM三个基本问题

如何评估模型和观测序列之间的匹配程度？
如何根据观测序列推测隐藏的模型状态？
如何训练模型使其更好的描述观测数据？

概率计算问题

直接计算方法

概念上可行，计算上不可行。列举所有的长度为T可能的状态序列，然后计算每一个状态序列与观察序列的联合概率，然后对所有可能的状态序列求和，得到P(O| $\lambda$ ).计算量大，是O（T $N^{T}$ ）阶的，算法不可行。

前向算法

前向概率

$\alpha_{t}(i)=P\left(o_{1}, o_{2}, \cdots, o_{t}, i_{t}=q_{i} | \lambda\right)$ ，给定HMM模型 $\lambda$ ，到时刻t部分观测序列为 $o_{1}, o_{2}, \cdots, o_{t}$ ，且状态为 $q_{i}$ 的概率

观测序列概率的的前向算法

输入：HMM模型 $\lambda$ ，观测序列O

输出：观测序列概率P(O| $\lambda$ )

初值 $\alpha_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), \quad i=1,2, \cdots, N$
递推对t = 1,2,3,...,T-1, $\alpha_{t+1}(i)=\left[\sum_{j=1}^{N} \alpha_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right), \quad i=1,2, \cdots, N$
终止 $P(O | \lambda)=\sum_{i=1}^{N} \alpha_{T}(i)$

后向算法

后向概率

$\beta_{t}(i)=P\left(o_{t+1}, o_{t+2}, \cdots, o_{T} | i_{t}=q_{i}, \lambda\right)$ ，给定HMM模型 $\lambda$ ，在时刻t状态为qi的条件下，从t+1到T的部分观测序列为 $O_{t+1}, O_{t+2}, \cdots, O_{T}$ 的概率为后向概率。

观测序列概率的的后向算法

输入：HMM模型 $\lambda$ ，观测序列O

输出：观测序列概率P(O| $\lambda$ )

$\beta_{T}(i)=1, \quad i=1,2, \cdots, N$
对t = T-1,T-2,...,1, $\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j}\left(o_{i+1}\right) \beta_{t+1}(j), \quad i=1,2, \cdots, N$
$P(O | \lambda)=\sum_{i=1}^{N} \pi_{i} b_{i}\left(o_{1}\right) \beta_{1}(i)$

综合前向概率和后向概率，

$P(O | \lambda)=\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j), \quad t=1,2, \cdots, T-1$

t = 1时等于前向概率，t = T-1时等于后向概率。

学习算法

根据训练数据是包括观测序列和对应状态序列，还是只有观测序列分为监督与非监督学习。

监督学习方法

假设已给训练数据包含S个长度相同的观测序列和对应的状态序列 $\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \cdots,\left(O_{s}, I_{s}\right)\right\}$ ，使用极大似然估计来估计HMM的参数。

1、转移概率的估计

样本中时刻t处于状态i时刻t+1转移到状态j的频数为 $A_{_{ij}}$ ，状态转移概率 $a_{ij}$ 的估计是

$\hat{a}_{i j}=\frac{A_{ij}}{\sum_{j=1}^{N} A_{i j}}, \quad i=1,2, \cdots, N ; j=1,2, \cdots, N$

2、观测概率的估计

样本中状态为j并观测为k的频数是 $B_{jk}$ ,那么状态为j观测为k的概率 $b_{j}(k)$ 的估计是

$\hat{b}_{j}(k)=\frac{B_{j k}}{\sum_{k=1}^{M} B_{j k}}, \quad j=1,2, \cdots, N_{i} k=1,2, \cdots, M$

3、初始状态概率 $\pi_{i}$ 的估计 $\hat{\pi}_{i}$ 为S个样本中初始状态为qi的概率。

由于监督学习需要使用训练数据，人工标注数据代价很大，所以需要非监督学习的算法。

非监督学习方法

Baum-Welch算法

给定只包含S个长度为T的观测序列，而没有对应的状态序列，目标学习HMM的参数。

将观测序列数据看作观测数据O，状态序列数据看作不可测的隐数据I，HMM模型实际上是一个含有因变量的概率模型

$P(O | \lambda)=\sum_{I} P(O | I, \lambda) P(I | \lambda)$

参数学习由EM算法实现。

输入：观测数据 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$

输出：HMM参数

1、初始化

2、递推，对n=1,2,...,

$a_{i j}^{(n+1)}=\frac{\sum_{i=1}^{r-1} \xi_{t}(i, j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)}$

3、终止。

预测算法

近似算法

维特比算法

灯塔先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率图模型

生成式模型和判别式模型判别式模型是直接基于后验条件概率进行建模，而生成模型是对联合分布进行建模。假设已有训练数据（X,Y），X是属性集合，Y是类别标记。我们最终的目的是求得最大的条件概率P(y|x)作为样本的分类。只是两个模型做法不一样。判别式模型依据训练数据得到一个分类函数和分界面，比如使用SVM得到一个分界面，然后直接计算P(y|x)，将最大的值作为x的分类类别，判别式模型...
复制链接

扫一扫