最大熵马尔可夫模型MEMM

最新推荐文章于 2023-09-23 04:07:47 发布

sigmeta

最新推荐文章于 2023-09-23 04:07:47 发布

阅读量2.3k

点赞数

分类专栏： nlp 机器学习

nlp 同时被 2 个专栏收录

10 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

本文探讨了信息熵的概念，它是衡量系统不确定性的一种方式。详细介绍了最大熵原理，即在有限信息下寻求最不偏倚的概率分布。进一步讨论了最大熵马尔可夫模型（MEMM），一种结合了马尔可夫性和最大熵假设的序列标注模型，对比了其与隐马尔可夫模型（HMM）的区别与优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息与熵

熵(信息熵)可被认为是系统不确定性(混乱程度)的度量，熵值越大，系统越混乱。

一个X值域为{x1, ..., xn}的随机变量的熵值H定义为：

$H(X)=E(I(X))$

其中，E 代表了期望函数，而I(X)是X的信息量（又称为信息本体），熵是随机变量的各值域概率及其信息量积的加总。

信息量是用来衡量单一随机变量发生时所含信息的的多寡，随机变量发生的概率越低，其发生后消除系统不确定性的能力越强，所含信息量就越大。所以信息量与随机变量概率成反比。注意：信息量与信息作用的概念不同。

$I(X)=log(\frac{1}{P(X)})=-logP(X)$

由对数函数可以看出信息量的一个特性：若 $p(c) = p(a)p(b)$ , 则 $I(c) = I(a) + I(b)$

把信息量公式带入熵公式展开得：

$H(X)=E(I(X))=-\sum_{x \in X} p(x)logp(x)$

熵满足如下不等式：

$0 \le H(X) \le log|X|$

$\sum_{x \in X} p(x)=1$

|X|是X的取值个数，当且仅当X的分布是均匀分布式时右边的等号成立，也就是说X服从均匀分布式时，熵最大。

最大熵原理

当熵最大时，则表示该系统内各随机事件(变量)发生的概率是近似均匀的，等可能性的，根据这一性质我们可以将已知事件作为约束条件，作出最不偏倚的假设，求得可使熵最大化的概率分布。

我们先引入特征函数f(x,y)，f(x,y)是一个二值函数，表示当x,y满足某一事实其特征函数值为1。

$f_i(x,y) \in \{0,1\},i=1,2,...,m$

在真实的语言环境里，某一观测值对应的隐藏状态是由上下文环境(观测，状态)决定的，引入特征函数可使我们能够自由的选取特征(观测或状态的组合)。可以说是用特征(观测组合)来代替观测，避免生成模型HMM, naive bayes的观测独立性假设的局限性。

我们可以根据大小为T的训练数据D={(x,y)}得到一个经验期望和模型期望。

$\tilde{E}(f_i)=\frac {1}{n} \sum_{x,y} p(x,y)f_i(x,y)$

$E(f_i)=\frac {1}{n} \sum_{x,y} p(x)p(y|x)f_i(x,y)$

我们假设经验期望与模型期望相等，那么就存在多个满足此约束的有关任意特征函数fi的条件概率分布的集合C，于是有：

$C=\{ P|E_p(f_i)=\tilde{E_p}(f_i), i=1,2,...,m \}$

最大熵原理认为，从不完整的信息（例如有限数量的训练数据）推导出的唯一合理的概率分布应该在满足这些信息提供的约束条件下拥有最大熵值——即熵最大的分布在条件概率集合是最优的，那么最大熵模型变为凸函数的约束优化问题

$\max_{P \in C} H(P)=-\sum_{x,y} P(x)P(y|x)logP(y|x)$

$s.t. E_p(f_i)=\tilde{E_p}(f_i), i=1,2,...,m$

$s.t. \sum_{y}p(y|x)=1$

我们通常使用拉格朗日对偶原理来将原式变形为无约束的极值求解：

$L(\omega, \alpha, \beta)=f(\omega) + \sum_{i=1}^k\alpha_i g_i(\omega) + \sum_{j=1}^l\beta_j h_j(\omega)$

$\Lambda(p, \tilde{\lambda})=H(y|x) + \sum_{i=1}^m \lambda _i(E_p(f_i) - \tilde{E_p}(f_i)) + \lambda _{m+1}(\sum_{y \in Y} P(y|x)-1)$

在拉格朗日函数对p求偏导，并使之等于0，求解方程，省略N步整型可得下式: (推导过程可见李航《统计学习方法》相关章节)

$p_{\tilde{\lambda}}^*(y|x)=\frac{1}{Z_{\tilde{\lambda}}(x)}exp(\sum_{i=1}^m \lambda_i f_i(x,y))$

$Z_{\tilde{\lambda}}(x)=\sum_{y \in Y}exp(\sum_{i=1}^m \lambda_i f_i(x,y))$

其中 $\lambda_i$ 是模型中各个特征函数 $f_i(x,y)$ 的参数向量，Z是以观测序列X为条件概率的归一化因子，其意义是将复杂的联合分布分解为多个因子的乘积(最大团)，实质是得到归一化因子Z(x)均衡给定x任意y的条件概率分布 $p(y_j|x)$ 数值(局部归一)，最大熵模型学习过程就是估计出这两种有关x,y的参数

$Z_{\tilde{\lambda}}(x)=\sum_{y \in Y}\prod_{i=1}^m exp(\lambda_i f_i(x,y))$

最大熵马尔可夫模型

最大熵模型是在已知经验分布的基础上求解有关特征函数f(x,y)的最优的P(y|x)概率分布，但它的随机变量y有相互独立的假设，所以不能很好的描述y_i, x_i与y_{i-1}的关系，而HMM又有观测独立性假设不能自由的选择特征，所以我们希望找到一个能同时服从马尔可夫性假设和服从最大熵假设的模型解决序列标注的问题

模型形式

对比隐马尔可夫模型(HMM)

$P(X)=\sum_y \prod_{i=1}^T p(y_i|y_{i-1})p(x_i|y_i)$

状态序列Y，观测序列X，两个状态转移概率: 从y_{i-1}到y_i的条件概率分布 $p(y_i|y_{i-1})$ ，状态y_i的输出观测概率 $p(x_i|y_i)$ ，初始概率 $p_0(y)$ 。隐马尔可夫模型依赖于已知数据的概率分布，已经历史经验来决定现实决策，但实际能提供训练的数据是少量且稀疏的，我们不能枚举所有的数据分布状况，所以需要在数据稀疏的条件下估计未知x,y的条件概率。