机器学习之最大熵模型

声明:
1、本文仅为学习笔记,不得商用
2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我
3、如果内容有错误或者不准确的地方请大家指正

最大熵模型

最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,逻辑回归和最大熵模型都是对数线性模型。

基础知识

联合熵

由单变量推广到多变量

H(X,Y)=ni=1p(xi,yi)logp(yi|xi) H ( X , Y ) = − ∑ i = 1 n p ( x i , y i ) l o g p ( y i | x i )

拉格朗日乘子法

常见的求极值的方法之一,后续补全

KL距离

KL距离也叫KL散度,是描述两个概率分布Q和P的差异的一种方法

D(P||Q)=p(x)logp(x)q(x) D ( P | | Q ) = ∑ p ( x ) l o g p ( x ) q ( x )

用概率分布 Q Q 来拟合真实的概率分布P时产生的信息损耗, P P 表示真实分布,Q表示 P P 的拟合分布
KL散度具有不对称性,D(P||Q)D(Q||P),KL满足非负性,即 D(P||Q)0 D ( P | | Q ) ≥ 0

对数线性模型

一件事情的几率 odds o d d s ,是指该事件发生的概率与该事件不发生的概率的比值。
我们可以以逻辑回归为例

logit(p)=logp1p=loghθ(x)1hθ(x)=θTx l o g i t ( p ) = l o g p 1 − p = l o g h θ ( x ) 1 − h θ ( x ) = θ T x

可以看出我们实际上是在用线性回归模型的结果去逼近真实标记的对数几率。
我们通过最大似然来估计给定的参数 θ θ ,对数回归模型的最大似然, 含义即是每个样本属于其真实标记的概率越大越好

最大熵原理

最大熵原理是概率学习模型的一个准则,最大熵原理认为,学习概率模型的时候,在所有的可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以最大熵的模型是在满足约束条件下的模型的集合中选择熵最大的模型。

参考文献
[1] 百度百科
[2] 统计学习方法 李航
[3] 机器学习 周志华

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值