统计学习方法-最大熵模型

最大熵模型(maximum entropy model)是由最大熵原理推导而来的。

一、最大熵原理

最大熵原理认为,学习概率模型的时候,在所有可能的概率模型分布中,熵最大的模型是最好的模型。模型通常要满足数据集的约束条件。所以最大熵模型的原理可以被描述为在满足约束条件下熵最大的模型。

直观地讲,最大熵原理,认为要选择的概率模型首先要满足已有的事实,即约束条件。然后再不确定信息的情况下,那些不确定的部分都是等可能的。最大熵原理通过熵的最大化来表示可能性,“等可能”不容易操作,但熵则是一个可以优化的数值指标。

二、最大熵模型

关于最大熵模型的定义,H(p)代表条件概率分布P(Y|X)的条件熵:

 H(Y|X) = \sum_{x,y}^{ }p(x,y)log(p(y|x))

其中 p(x,y) = p(x)p(y|x),又因为p(x)在实际情况中不好求,所以使用训练集p'(x)代替。

最大熵模型就是满足约束条件,同时使上述条件熵最大的模型。而约束条件由数据中的特征函数表示:

特征函数理解为某个特征值和随机变量y的关系,当x=x0,y=y0时候这个函数值为1,否则这个函数值为0。

 特征函数关于经验分布 p'(x,y)的期望为 p'(x, y) * f(x, y) 

 

三、最大熵模型的学习

带约束的凸优化问题,一般引入拉格朗日乘子,构造拉格朗日函数

首先求内部极小问题,对p(y|x)求偏导,L'=0得到:

对外部极大问题,使用极大似然估计进行求解,优化算法使用梯度下降,拟牛顿法或者改进的迭代尺度算法(improved iterative scaling)
 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值