最大熵模型与最大似然概率

最新推荐文章于 2019-04-03 16:51:10 发布

pi9nc

最新推荐文章于 2019-04-03 16:51:10 发布

阅读量4.6k

点赞数

分类专栏：思维 Machine learning

Machine learning 同时被 2 个专栏收录

168 篇文章

订阅专栏

思维

22 篇文章

订阅专栏

(转)最大熵模型与最大似然概率

2010-03-25 00:26:15| 分类：研究笔记|字号订阅

对于自然语言处理中的各种模型来说，最大熵模型是一种在形式上最简单，但是在实现上却最复杂的模型。最大熵模型就是在满足已知条件的情况下，求得使熵最大的概率模型。说起来很简单，实际上要求得这个熵最大的概率模型，计算量十分巨大，因此需要仔细设计细节。

最大熵模型最大的难点来源于特征的选取和参数估计。其中特征选取的需要很多次迭代，在迭代的过程中逐步对参数进行估计。在最大熵模型参数的计算中，因为将特征视为已知，因此需要对已知情况进行计算，而这种计算就是最大似然概率估计算法的特长。

最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：

假定第零次迭代的初始模型为等概率的均匀分布。
用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们便大。
重复步骤 2 直到收敛。

上次的文章中讲到最大熵模型最难的部分是训练，因为训练中的数据量巨大，导致计算量巨大。Darroch & Raticliff在1972年提出了 GIS算法来求解。GIS算法是一种通用的求解线性等式约束对数线性规划问题的算法，其核心思想是利用拉格朗日算子，将线性等式约束对数线性规划问题转化为对数线性规划问题，然后使用求偏导数法将对数线性规划问题转化为迭代求解问题，最后使用梯度递减法求得最优解。GIS算法的效率不高，收敛速度慢，而且不稳定，容易越界。

鉴于这些缺陷，最大熵模型并未被广泛使用，但Adwait Ratnaparkhi在1994年的A Maximum Entropy Model for Parsing 论文中成功的使用了最大熵模型进行句法分析。1997年Della Pietra & Lafferty提出了IIS算法，对GIS进行了改进。IIS算法的前两步与GIS相同，再将线性等式约束对数线性规划问题转化为迭代求解问题后，使用最大似然概率法将问题再次转化为求最大下界问题，然后使用求偏导数法求得迭代步长，循环迭代得到最优解。Adam Berger对IIS算法进行了十分清晰的解释。

虽然经过了两次改进，最大熵模型的计算量仍然十分巨大，在2001年吴军对最大熵模型进行了进一步改进，提出了层次训练算法。下一篇将详细介绍这一算法。

上次的文章中讲到吴军在IIS的基础上进一步提出了层次训练算法，其核心思想是利用特征的层次化关系，避免了重复计算，从而把最大熵模型的训练效率提高了几百上千倍。

最大熵模型的训练的计算量主要来自三个部分：模型参数、特征期望值和归一化因子。模型参数的个数等于特征的个数，可以用IIS中的办法计算出来，计算量相比特征期望值和归一化因子算是少的，因此主要的计算量集中在后两者。层次训练算法中计算模型参数的方法与GIS和IIS是一样的，主要改进特征期望值和归一化因子的计算方法。

最大熵模型中的特征有很多，有些特征具有层次化关系，例如在3-gram模型中，符合一个三元特征的元组通常会符合一个二元特征，因此符合二元特征的元组集合包含三元特征的元组集合，两者具有层次关系，以此类推，二元特征又跟一元特征具有层次关系。因此，在计算归一化因子的时候，能够将式子划分成对一元特征、二元特征和三元特征的累加值的和，这样具有同样前向条件的二元元组和三元元组只需计算一次，以后就都能使用二元特征和三元特征的累加值，只需计算一元特征的累加值，计算量大为下降。同样，在计算特征期望值的时候，由于符合一元特征的元组集合包含二元和三元特征的，可以将求一元特征期望值的式子划分成一元、二元、三元三个部分，其中二元和三元的部分，只需计算一次，以后具有同样的前向条件的三元元组就不需要计算了，以此类推，二元特征期望值和三元特征期望值，也可以简化。

但是，有些模型的特征并不具有层次关系，吴军提出一个通用的层次化特征的办法，这样对于一些诸如主题特征、句法特征、符号特征等无层次的特征的计算也能够进行简化。在此基础上，吴军还进一步简化了归一化因子的计算，将最大熵模型转化ARPA格式，同时对常用的归一化因子和特征期望值进行缓存，计算时间进一步减少。

以上三篇文章对最大熵模型的训练算法，做了基本介绍，下一篇将讲讲最大熵模型与最大似然概率的关系。