HMM, CRF(还有EM、GMM)

HMM

隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型,
由隐藏的马尔科夫链,随机生成观测序列的过程,属于生成模型
关于时序概率模型

熵,最大熵,是基础。
熵:表现了系统所处状态的不确定性程度。平均信息量(平均不确定程度)。
最大熵:保留全部的不确定性,将风险降到最小。指数函数形式,形式漂亮简单,实际实现计算复杂。

马尔科夫链:状态空间中从一个状态到另一个状态的转换的随机过程。该过程具备“无记忆”的性质,下一状态的概率分布,只由当前状态决定。这种“无记忆性”叫做马尔科夫性质。

HMM中的三个元素: 初始化概率向量, 状态转移矩阵,观测矩阵。

HMM的两个基本假设: 1)当前时刻的状态只与上一时刻的状态有关, 2)当前时刻的观测只与当前时刻的状态有关。

HMM中的三个基本问题:
1. 概率计算问题: 给定模型(初始状态概率,状态转移矩阵,观测矩阵),和观测序列O,计算在该模型下,观测序列O出现的概率。
方法:前向-后向算法,通过递推高效的计算概率(直接引用前一时刻的计算结果, 避免了重复计算)。

**2. 学习问题:**给定观测序列O,求解该观测序列下,概率最大的参数,用极大似然估计。

1)观测序列+对应的状态序列(有监督学习): 直接使用最大似然估计来求解转移概率和观测概率。人工标注代价成本太高,一般会利用无监督方法。

2)只有观测序列(无监督学习):使用EM算法进行参数估计。
初始n=0,递推的求解:E步, M步,分别求解三块参数。

3. 预测问题: 给定观测序列O 和 模型,求解对 给定观测序列O下条件概率最大的状态序列。 也叫解码问题。
1)近似算法:
每个时刻选择最有可能的的状态,贪心的保证每个时刻最优,没有考虑时序关系,不能保证全局最优。
2)维特比算法:
用动态规划求解概率最大的路径,即最优路径。

CRF

CRF(Conditional Random Field),条件随机场,仅讨论在标注问题中的应用,这里主要是线性链(linear chain)条件随机场
定义:给定随机变量X条件下,随机变量Y的马尔科夫随机场

概率无向图模型:联合概率P(Y)满足马尔科夫性,整个联合概率就被称为概率无向图模型,或马尔科夫随机场。 最大的特点就是方便因子分解,

将概率无向图模型的联合概率分布表示为,最大团上的随机变量函数乘积形式,就是概率无向图模型的因子分解。
P(Y) = (1/Z) * (连乘)
Z是规范化因子,保证P(Y)构成一个概率分布,Z = (连乘并求和)

线性链条件随机场:X,Y均为线性链表示的随机变量序列,在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布**P(Y|X)**构成条件随机场,即满足马尔科夫性,
P(Yi | X,Y1, …, Yi-1, Yi+1, …, Yn) = P(Yi | X, Yi-1, Yi+1)
则称P(Y | X)为线性链条件随机场。标注问题中,X表示观测序列,Y表示对应的输出标记序列或状态序列。

**1. CRF的参数化形式:**P(Y|X)的因子分解,各因子是定义在相邻两个节点上的函数。
随机变量X取值为x,随机变量Y取值为y的条件概率具有如下形式:
在这里插入图片描述
1)tk是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,sl是定义在节点上的特征函数,称为状态特征,依赖于当前位置,这两个都依赖于位置,称为局部特征函数。这两个特征函数通常取值为1或0,满足特征条件时取1,不满足取0.

2)旁边的两个是两个特征函数对应的权值。
条件随机场,完全由这四个参数来确定。

Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。以上线性链条件随机场就是一个对数线性模型。

2. CRF的简化形式:
CRF的同一特征在各个位置都有定义,对同一特征在各个位置求和,将局部特征转化为一个全局特征函数。
将CRF写成权值向量和特征向量的内积形式,就是简化形式。

3. CRF的矩阵形式:

CRF的三大基本问题:

  1. 概率计算问题: 和HMM一样,用前向-后向算法。

2. 学习算法:
CRF模型实际上是定义在时序数据上的对数线性模型。学习方法包括极大似然估计、正则化的极大似然估计。
优化方法有:改进的迭代尺度法、梯度下降法、拟牛顿法。
1)改进的迭代尺度法(用的简化形式):求解转移特征tk、 状态特征sl, 参数迭代更新w,w通过转移方程和状态方程得出,

2)拟牛顿法: 最小化目标函数,计算梯度,

  1. 预测问题: 给定条件随机场P(Y|X)和输入序列(观测序列)x, 求条件概率最大的输出序列输出序列(标记序列、状态序列)y,就是对观测序列进行标注。
    用的也是维特比算法。

CRF没有独立性假设,所以容纳更多的上下文信息,
CRF是给定观察序列,计算整个标记序列的联合概率。
CRF计算量大,参数众多,训练慢。

EM估计

EM: 用于含有隐变量(hidden variable)的概率模型参数的 极大似然估计、或极大后验概率估计
EM 是一种
迭代算法
每次迭代分两步: E步,求期望; M步, 求极大值。

概率模型, 有时含有 观测变量(observable variable), 也可能含有隐变量(hidden variable), 或者潜在变量(latent variable)。

都是观测变量的话,给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数
含有隐变量的话, 就要用EM.

GMM混合

高斯混合模型(Gaussian Mixed Model),指的是多个高斯分布函数的线性组合,理论上GMM可以拟合任意类型的分布。通常用于解决,同一集合下的数据包含多个不同分布的情况(或同一分布,但参数不一样,或不同类型分布)

给定一组输入随机变量条件下,另一组输出随机变量条件下,的条件概率模型。假设输出随机变量构成马尔可夫随机场。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值