HMM, CRF(还有EM、GMM)

最新推荐文章于 2024-04-07 22:26:43 发布

William张

最新推荐文章于 2024-04-07 22:26:43 发布

阅读量2.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mrwilliamvs/article/details/89338231

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HMM

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型，
由隐藏的马尔科夫链，随机生成观测序列的过程，属于生成模型。
关于时序的概率模型

熵，最大熵，是基础。
熵：表现了系统所处状态的不确定性程度。平均信息量（平均不确定程度）。
最大熵：保留全部的不确定性，将风险降到最小。指数函数形式，形式漂亮简单，实际实现计算复杂。

马尔科夫链：状态空间中从一个状态到另一个状态的转换的随机过程。该过程具备“无记忆”的性质，下一状态的概率分布，只由当前状态决定。这种“无记忆性”叫做马尔科夫性质。

HMM中的三个元素：初始化概率向量，状态转移矩阵，观测矩阵。

HMM的两个基本假设： 1）当前时刻的状态只与上一时刻的状态有关， 2）当前时刻的观测只与当前时刻的状态有关。

HMM中的三个基本问题：
1. 概率计算问题： 给定模型(初始状态概率，状态转移矩阵，观测矩阵)，和观测序列O，计算在该模型下，观测序列O出现的概率。
方法：前向-后向算法，通过递推高效的计算概率(直接引用前一时刻的计算结果，避免了重复计算)。

**2. 学习问题：**给定观测序列O，求解该观测序列下，概率最大的参数，用极大似然估计。

1）观测序列+对应的状态序列(有监督学习): 直接使用最大似然估计来求解转移概率和观测概率。人工标注代价成本太高，一般会利用无监督方法。

2）只有观测序列(无监督学习)：使用EM算法进行参数估计。
初始n=0，递推的求解：E步， M步，分别求解三块参数。

3. 预测问题： 给定观测序列O 和模型，求解对给定观测序列O下条件概率最大的状态序列。也叫解码问题。
1）近似算法：
每个时刻选择最有可能的的状态，贪心的保证每个时刻最优，没有考虑时序关系，不能保证全局最优。
2）维特比算法：
用动态规划求解概率最大的路径，即最优路径。

CRF

CRF(Conditional Random Field)，条件随机场，仅讨论在标注问题中的应用，这里主要是线性链(linear chain)条件随机场。
定义：给定随机变量X条件下，随机变量Y的马尔科夫随机场。

概率无向图模型：联合概率P(Y)满足马尔科夫性，整个联合概率就被称为概率无向图模型，或马尔科夫随机场。最大的特点就是方便因子分解，

将概率无向图模型的联合概率分布表示为，最大团上的随机变量函数乘积形式，就是概率无向图模型的因子分解。
P(Y) = (1/Z) * (连乘)
Z是规范化因子，保证P(Y)构成一个概率分布，Z = （连乘并求和）

线性链条件随机场：X，Y均为线性链表示的随机变量序列，在给定随机变量序列X的条件下，随机变量序列Y的条件概率分布**P(Y|X)**构成条件随机场，即满足马尔科夫性，
P(Yi | X，Y1， …, Yi-1, Yi+1, …, Yn) = P(Yi | X, Yi-1, Yi+1)
则称P(Y | X)为线性链条件随机场。标注问题中，X表示观测序列，Y表示对应的输出标记序列或状态序列。

**1. CRF的参数化形式：**P(Y|X)的因子分解，各因子是定义在相邻两个节点上的函数。
随机变量X取值为x，随机变量Y取值为y的条件概率具有如下形式：
在这里插入图片描述
1）tk是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置，sl是定义在节点上的特征函数，称为状态特征，依赖于当前位置，这两个都依赖于位置，称为局部特征函数。这两个特征函数通常取值为1或0，满足特征条件时取1，不满足取0.

2）旁边的两个是两个特征函数对应的权值。
条件随机场，完全由这四个参数来确定。

Z(x)是规范化因子，求和是在所有可能的输出序列上进行的。以上线性链条件随机场就是一个对数线性模型。

2. CRF的简化形式：
CRF的同一特征在各个位置都有定义，对同一特征在各个位置求和，将局部特征转化为一个全局特征函数。
将CRF写成权值向量和特征向量的内积形式，就是简化形式。

3. CRF的矩阵形式：

CRF的三大基本问题：

概率计算问题：和HMM一样，用前向-后向算法。

2. 学习算法：
CRF模型实际上是定义在时序数据上的对数线性模型。学习方法包括极大似然估计、正则化的极大似然估计。
优化方法有：改进的迭代尺度法、梯度下降法、拟牛顿法。
1）改进的迭代尺度法(用的简化形式)：求解转移特征tk、状态特征sl，参数迭代更新w，w通过转移方程和状态方程得出，

2）拟牛顿法：最小化目标函数，计算梯度，

预测问题：给定条件随机场P(Y|X)和输入序列(观测序列)x，求条件概率最大的输出序列输出序列(标记序列、状态序列)y，就是对观测序列进行标注。
用的也是维特比算法。

CRF没有独立性假设，所以容纳更多的上下文信息，
CRF是给定观察序列，计算整个标记序列的联合概率。
CRF计算量大，参数众多，训练慢。

EM估计

EM：用于含有隐变量(hidden variable)的概率模型参数的极大似然估计、或极大后验概率估计
EM 是一种迭代算法每次迭代分两步： E步，求期望； M步，求极大值。

概率模型，有时含有观测变量(observable variable), 也可能含有隐变量(hidden variable), 或者潜在变量(latent variable)。

都是观测变量的话，给定数据，可以直接用极大似然估计法，或贝叶斯估计法估计模型参数，
含有隐变量的话，就要用EM.

GMM混合

高斯混合模型（Gaussian Mixed Model），指的是多个高斯分布函数的线性组合，理论上GMM可以拟合任意类型的分布。通常用于解决，同一集合下的数据包含多个不同分布的情况（或同一分布，但参数不一样，或不同类型分布）

给定一组输入随机变量条件下，另一组输出随机变量条件下，的条件概率模型。假设输出随机变量构成马尔可夫随机场。

William张

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HMM, CRF(还有EM、GMM)

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型，由隐藏的马尔科夫链，随机生成观测序列的过程，属于生成模型。关于时序的概率模型熵，最大熵，是基础。熵：表现了系统所处状态的不确定性程度。平均信息量（平均不确定程度）。最大熵：保留全部的不确定性，将风险降到最小。指数函数形式，形式漂亮简单，实际实现计算复杂。...
复制链接

扫一扫