【机器学习】最大熵模型(Maximum Entropy Model)

24 篇文章 53 订阅
13 篇文章 7 订阅

最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大

最大熵模型是由最大熵原理推导实现的,所以,在讲述最大熵模型前,我们先要讲讲最大熵原理,将它作为预备知识。

最大熵原理

最大熵原理 是 概率模型学习的一个准则, 评价一个模型的好坏是根据熵的大小,熵大说明模型越好。因此可以理解,最大熵原理就是满足一定的约束条件下,选择熵最大的模型

计算最大熵根据两个前提去解决问题:

  1. 解决问题要满足一定约束 
  2. 不做任何假设,就是在约束外的事件发生概率为等概率

举个简单的例子:

1)假设随机变量X有5个取值 \{A,B,C,D,E\},要估计各个值的概率P(A),P(B),P(C),P(D),P(E)

从上述的已知条件,我们知道

P(A)+P(B)+P(C)+P(D)+P(E)=1(约束)

根据最大熵的前提条件,我们可以假定:P(A)=P(B)=P(C)=P(D)=P(E)(等概率)

所以,可以计算出来P(A)=P(B)=P(C)=P(D)=P(E)={1\over5}

2)假设随机变量X有5个取值 \{A,B,C,D,E\},其中,P(A)+P(B)={3\over10}。估计各个值的概率P(A),P(B),P(C),P(D),P(E)

如题可以知道:

P(A)+P(B)+P(C)+P(D)+P(E)=1(约束)

P(A)+P(B)={3\over10}(约束)

从约束中根据等概率,我们可以推测,P(A)=P(B)={3\over20},P(C)=P(D)=P(E)={7\over30}

现在,知道了最大熵原理,是不是觉得很简单~

接下来以统计建模的形式来描述 MaxEnt 模型,给定训练数据 \left \{ (x_i,y_i)\right\}_{i=1}^N ,现在要通过 Maximum Entropy 来建立一个概率判别模型,该模型的任务是对于给定的 X = x 以条件概率分布 P(Y|X = x ) 预测 Y 的取值。根据训练语料能得出 (X,Y) 的经验分布, 得出部分 (X,Y) 的概率值,或某些概率需要满足的条件,即问题变成求部分信息下的最大熵或满足一定约束的最优解,约束条件是靠特征函数来引入的,首先先回忆一下函数期望的概念。

对于随机变量 X = x_i,i = 1,2,\cdots  则可以得到:

随机变量期望: 对于随机变量 X ,其数学期望的形式为 E(X) = \sum_ix_ip_i

随机变量函数期望:若 Y = f(X) , 则关于 X 的函数 Y 的期望: E(Y) = \sum_if(x_i)p_i

特征函数

特征函数 f(x,y) 描述 x 与 y 之间的某一事实,其定义如下:

特征函数 f(x,y) 是一个二值函数, 当 x 与 y 满足事实时取值为 1 ,否则取值为 0 。比如对于如下数据集:

1

数据集中,第一列为 Y ,右边为 X ,可以为该数据集写出一些特征函数,数据集中得特征函数形式如下:

为每个 <feature,label> 对 都做一个如上的特征函数,用来描述数据集数学化。

约束条件

接下来看经验分布,现在把训练数据当做由随机变量 (X,Y) 产生,则可以根据训练数据确定联合分布的经验分布 \widetilde{P}(X,Y) 与边缘分布的经验分布 \widetilde{P}(X) :

count()为计数函数。

用 E _{\widetilde{P}}(f) 表示特征函数 f(x,y) 关于经验分布 \widetilde{P}(X ,Y ) 的期望,可得:

\widetilde{P}(x ,y) 前面已经得到了,数数 f(x,y) 的次数就可以了,由于特征函数是对建立概率模型有益的特征,所以应该让 MaxEnt 模型来满足这一约束,所以模型 P(Y|X) 关于函数 f 的期望应该等于经验分布关于 f 的期望,模型 P(Y|X) 关于 f 的期望为:

P(x,y)为模型的实际联合分布,如果模型可以从训练集中学习,我们就可以假设这两个期望相等。也即P(x,y)=\tilde{P}(x)P(y|x)=\tilde{P}(x,y)

简单来讲就是我们从训练集数据状况中所得到的经验分布\widetilde{P}(x ,y)可以一定程度上去代替模型的实际分布P(x,y),当训练集很大的时候,这两者确实可以近乎认为相等,其实就是抽样估计啦~。

我们要求的是模型是P(y|x),解出P(y|x),我们就可以带入样本x,得到输出y的概率分布。

经验分布与特征函数结合便能代表概率模型需要满足的约束,只需使得两个期望项相等, 即 E_P(f) = E _{\widetilde{P}}(f) :

上式便为 MaxEnt 中需要满足的约束,给定 n 个特征函数 f_i(x,y) ,则有 n 个约束条件,用 C 表示满足约束的模型集合:

从满足约束的模型集合 C 中找到使得 P(Y|X) 的熵最大的即为 MaxEnt 模型了。

最大熵模型

关于条件分布 P(Y|X) 的熵为:

首先满足约束条件然后使得该熵最大即可,MaxEnt 模型 P^* 为:

或者

综上给出形式化的最大熵模型

给定数据集 \left \{ (x_i,y_i)\right\}_{i=1}^N,特征函数 f_i(x,y),i= 1,2,\cdots,n,根据经验分布得到满足约束集的模型集合 C :

按照最优化的习惯,一般会将求最大问题转换为等价的求最小问题。

MaxEnt 模型的求解

MaxEnt 模型最后被形式化为带有约束条件的最优化问题,可以通过拉格朗日乘子法将其转为无约束优化的问题,引入拉格朗日乘子:w_0,w_1,\cdots ,w_n,定义朗格朗日函数 L(P,w) :

现在问题转化为: \min_{P \in C}L(P,w) ,拉格朗日函数 L(P,w) 的约束是要满足的 ,如果不满足约束的话,只需另 w_i \rightarrow +\infty ,则可得L(P,w) \rightarrow +\infty ,因为需要得到极小值,所以约束必须要满足,满足约束后可得:L(P,w) = \max L(P,w) ,现在问题可以形式化为便于拉格朗日对偶处理的极小极大的问题:(详细参见之前写的拉格朗日乘子法KKT条件拉格朗日对偶

由于 L(P,w) 是关于 P 的凸函数,根据拉格朗日对偶可得 L(P,w) 的极小极大问题与极大极小问题是等价的:

现在可以先求内部的极小问题 \min_{P \in C} L(P,w) ,\min_{P \in C} L(P,w) 得到的解为关于 w 的函数,可以记做 \Psi(w) :

上式的解 P_w 可以记做:

由于求解 P 的最小值 P_w ,只需对于 P(y|x) 求导即可,令导数等于 0 即可得到 P_w(y|x) :

由于 \sum_yP(y|x) = 1,可得:

进而可以得到:

这里 exp(1-w_0) 起到了归一化的作用,令 Z_w(x) 表示 exp(1-w_0) ,便得到了 MaxEnt 模型 

这里 f_i(x,y) 代表特征函数,w_i 代表特征函数的权值,P_w(y|x) 即为 MaxEnt 模型,现在内部的极小化求解得到关于 w 的函数,现在求其对偶问题的外部极大化即可,将最优解记做 w^*:

所以现在最大熵模型转为求解 \Psi(w) 的极大化问题,求解最优的 w^* 后, 便得到了所要求的MaxEnt 模型,将 P_w(y|x) 带入 \Psi(w) ,可得:

以上推倒第二行到第三行用到以下结论:

倒数第二行到最后一行是由于:\sum_yP_w(y|x) = 1,最终通过一系列极其复杂的运算,得到了需要极大化的式子:

对 \Psi(w) 求极大化,由于它是连续可导的,所以优化方法有很多种,比如梯度下降法,牛顿法,拟牛顿法都可以。对于最大熵模型还有一种专用的优化方法,叫做改进的迭代尺度法(improved iterative scaling, IIS)。

极大化似然估计解法

这太难了,有没有简单又 work 的方式呢? 答案是有的,就是极大似然估计 MLE 了,这里有训练数据得到经验分布 \widetilde{P}(x,y), 待求解的概率模型 P(Y|X) 的似然函数为:

这里以指数的形式引入了\tilde{P}(x,y)。注意,对于给定的训练数据,\tilde{P}(x,y)都是通过统计得到的常数。至于为什么要以指数的形式引入\tilde{P}(x,y),这么想,P(y|x)^{\widetilde{P}(x,y)}对应指数函数x^k其中k为常数,对于固定k的而言,总是希望P(y|x)越大越好,求得参数P_w能够使整体训练集的最大,就是我们要做的事情。

将 P_w(y|x) 带入以下公式可以得到:

显而易见,拉格朗日对偶得到的结果与极大似然得到的结果时等价的,现在只需极大化似然函数即可,顺带优化目标中可以加入正则项,这是一个凸优化问题,一般的梯度法、牛顿法都可解之,专门的算法有GIS IIS 算法。

最优化算法

最优化算法详见最大熵学习笔记(五)最优化算法

IIS算法:

4. 最大熵模型小结

       最大熵模型在分类方法里算是比较优的模型,但是由于它的约束函数的数目一般来说会随着样本量的增大而增大,导致样本量很大的时候,对偶函数优化求解的迭代过程非常慢,scikit-learn甚至都没有最大熵模型对应的类库。但是理解它仍然很有意义,尤其是它和很多分类方法都有千丝万缕的联系。 

     惯例,我们总结下最大熵模型作为分类方法的优缺点

  最大熵模型的优点有:

  1. 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
  2. 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

  最大熵模型的缺点有:

  1. 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。

 

参考文章:

最大熵模型 Maximum Entropy Model

李航统计学习

最大熵学习笔记(五)最优化算法

  • 6
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值