matlab 最大熵原理,最大熵模型原理 最大熵模型(Maximum entropy model) 今天我们开始学习最大熵模型,该模型主要用于分类。 1 模型 熵... - 雪球...

来源:雪球App,作者: 李云龙门客栈,(https://xueqiu.com/8566534281/151009557)

最大熵模型(Maximum entropy model)

今天我们开始学习最大熵模型,该模型主要用于分类。

1 模型

熵表示对事物不确定性度量,不确定越高,熵越大。熵的计算方式如下:

3c265357c163b1d658ad63b8e0edfa26.png

在没有更多信息情况下,我们对未知情况不做任何主观假设,即将不确定部分视为等可能的。在构建分类时,对于一系列可能的条件概率分布模型,在满足已知约束情况下,我们从模型空间中选择熵最大的作为最终的分类模型。

举个非常简单的栗子,我们投掷一个6面骰子,估计1、2、3、4、5和6点出现的概率。按照最大熵原理,在没有已知约束下,每个点的概率都为1/6。若我们知道P(1)+P(2)=1/2,则1和2点概率为1/4,3、4、5和6点出现概率为1/8。

2 策略

面对更一般的情况,当我们获得一堆数据,如何以该数据为基础来求得最大熵模型?

(1) 经验联合分布和经验边缘分布

bcc13171f57b7c8f720fa350d03f9830.png

2601a107eeaf15183bda7dbce0b055ef.png

(2) 特征函数或指示函数

用来描述数据样本规律,表示某个元素x是否属于集合y。比如经典的二值函数,

2089a0f462a5f6662a74f2a20e0eea58.png

(3) 约束条件

我们将特征函数在经验联合分布上的期望与在联合分布上的期望一致,以此作为约束,即:

baaa68e5c9cb7bc57b5d41d90e7bf416.png

(4) 目标函数

在约束条件下,求熵最大时的P(y|x)

98823734eb7d9460658d8ccb0bbe6809.png

3 算法

(1) 两种求解方法

a 基于拉格朗日对偶求解

基于上述的目标函数和约束,我们将约束优化化为无约束优化:

60d7f635d1e34b69ddb662ccb766d556.png

原始问题:

ae778d4ed9c6e853a9a8713427f40802.png

对偶问题:

857a94405939b19bcf2566a7bc34773b.png

在对偶基础上进行如下计算:

在对偶原始

3d2811b14a72e3a257fa0911040abbf1.png

48630d838d85b0771db139d382604bbe.png

b 极大似然估计求解

我们也可以采用极大似然估计求解,在拉格朗日对偶求解的第一步基础上,求解以下最大值下的P:

6e31b3baedfefa8da514c8b7cb2eff8f.png

带入在拉格朗日对偶求解第一步解P(y|x)得到:

6ec8a273b8665f3af69661232d2d23d6.png

(2)最优化算法

IIS改进迭代尺度算法

目标函数:

23ab714058ddb56f8a020fa4d0644808.png

基本思想:变尺度迭代wi->wi+δi,直到找到L(w)最大值

权值更新的核心推导如下(其中涉及到-logα>=1-α,jensen不等式):

a1065f03347d7b085b726a6f96cdaed3.png

基本流程

95363723a0679ff5a25a2dabeba21381.png

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值