机器学习之最大熵模型

最新推荐文章于 2022-08-14 09:51:13 发布

飞虹舞毓

最新推荐文章于 2022-08-14 09:51:13 发布

阅读量342

点赞数

分类专栏：机器学习文章标签：最大熵模型

本文链接：https://blog.csdn.net/supinyu/article/details/80231623

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

声明：
1、本文仅为学习笔记，不得商用
2、文中所引文献，已在参考资料中说明，但部分来源于网络，出处无可考究，如果文中引用了您的原创，请您私信我
3、如果内容有错误或者不准确的地方请大家指正

最大熵模型
- 基础知识
- 最大熵原理

最大熵模型

最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型，逻辑回归和最大熵模型都是对数线性模型。

基础知识

联合熵

由单变量推广到多变量

H(X,Y)=−∑ni=1p(xi,yi)logp(yi|xi) H ( X , Y ) = − ∑ i = 1 n p ( x i , y i ) l o g p ( y i | x i ) $H(X,Y) = -\sum_{i=1}^{n}p(x_{i},y_{i})logp(y_{i}|x_{i})$

拉格朗日乘子法

常见的求极值的方法之一，后续补全

KL距离

KL距离也叫KL散度，是描述两个概率分布Q和P的差异的一种方法

D(P||Q)=∑p(x)logp(x)q(x) D ( P | | Q ) = ∑ p ( x ) l o g p ( x ) q ( x ) $D(P||Q)=\sum p(x)log \frac{p(x)}{q(x)}$
用概率分布

Q Q $Q$ 来拟合真实的概率分布

P

$P$ 时产生的信息损耗，

P P $P$ 表示真实分布，

Q

$Q$ 表示

P P $P$ 的拟合分布
KL散度具有不对称性，

D (P | | Q) \neq D (Q | | P)

$D(P||Q)\neq D(Q||P)$ ，KL满足非负性，即

D(P||Q)≥0 D ( P | | Q ) ≥ 0 $D(P||Q) \ge 0$

对数线性模型

一件事情的几率 $odds$ ，是指该事件发生的概率与该事件不发生的概率的比值。
我们可以以逻辑回归为例

logit(p)=logp1−p=loghθ(x)1−hθ(x)=θTx l o g i t ( p ) = l o g p 1 − p = l o g h θ ( x ) 1 − h θ ( x ) = θ T x $logit(p) = log \frac{p}{1-p}=log \frac{h_{\theta(x)}}{1-h_{\theta}(x)}=\theta^Tx$
可以看出我们实际上是在用线性回归模型的结果去逼近真实标记的对数几率。
我们通过最大似然来估计给定的参数

θ θ $\theta$ ，对数回归模型的最大似然， 含义即是每个样本属于其真实标记的概率越大越好。