最大熵模型

最新推荐文章于 2022-08-14 09:51:13 发布

weixin_41911765

最新推荐文章于 2022-08-14 09:51:13 发布

阅读量321

点赞数 1

文章标签：最大熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41911765/article/details/82156666

版权

1.自信息量：定义为 $-logp(x)=log\frac{1}{p(x)}$ ，表示事件发生概率越大，自信息量越少，反之，自信息量越多。

2.熵(香浓熵)：自信息量的期望 $H(X)=E_plog\frac{1}{p(x)}=-\sum_{x\epsilon X}p(x)\cdot logp(x)$ 。熵越大系统越混乱，也越稳定，因为事物总是自发的变得无序。熵越大系统不确定性越大。当 p(x)=1-p(x) 时，熵值达到最大，不确定性达到最大，见下图。

熵的值总是满足 $0\leq H(X)\leq logn$

用拉格朗日乘子法来证明右不等式：

已知条件 $\sum p_i=1$

最大化 $H(X)=E_plog\frac{1}{p(x)}=-\sum_{x\epsilon X}p(x)\cdot logp(x)$

构建拉格朗日函数 $L(p_1,p_2,...,p_n;\lambda )=H(X)+\lambda( \sum_i p_i-1)$

令函数对 $p_i$ 求偏导且等于0 $\frac{\partial L}{p_i}=log p_i+\frac{1}{ln_2}-\lambda =0,\ i=1,2,...n$

$L$ 在极值点出取得 $p_1=p_2=...=p_n=\frac{1}{n}$

用一个例子来粗暴地理解熵：

假如一个班级有32号人，在不给定任何信息的条件下让你猜第一名是谁，用二分查找法你可能会猜：

—— 是1-16吗？ ——是！

—— 是1-8吗？ ——是！

—— 是1-4吗？ ——是！

—— 是1-2吗？ ——是！

—— 是1号吗？ ——是！

此种情况你用5次就可以达到目的，因此熵可以不科学地理解为是一种代价 5=log_232 。

但是在你知道他们班的学生学号是根据平时成绩优劣来排的且第一名跟班上其他人的成绩差距很大的前提下你可能会猜

—— 是1号 ——是！

这也说明了给定条件会使得熵值变小，代价变小。

熵定义的实际上是一个随机变量的不确定性，熵最大的时候说明随机变量最不确定，换句话说也就是随机变量最随机，对其行为做预测也最难。因此从这个定义上讲最大熵原理的实质就是在已知部分知识的前提下，关于位置分布最合理的推断就是符合已知条件最不确定最随机最差的推断，任意偏倚的选择都会是给推断增加约束和假设，而这些假设和推断是虚假的，我们根本无法掌握到这些信息。

相对熵(relative entropy)又称为KL散度（Kullback-Leibler divergence），KL距离，是两个随机分布间距离的度量。记为DKL(p||q)DKL(p||q)。若假定q真实分布p的一个估计，则相对熵表示假设分布q的无效性或是假设分布q多出的离散程度。

$DL(p||q)=E_plog(\frac{p(x)}{q(x)})=(\sum_{x\epsilon X}p(x)logp(x)) -(\sum_{x\epsilon X}p(x)logq(x))$

$=-E_plog\left ( \frac{1}{p(x)}\right )+-E_plog\left ( \frac{1}{q(x)}\right )$

$=H_p(q)-H_p(p)$

4.交叉熵：等于相对熵加上真实熵。我们知道

$DL(p||q)=H_p(q)-H_p(p)$

令 $H_p(q)=DL(p||q)+H_p(p)$

则交叉熵实际上是求估计分布下的估计熵。

5.条件熵：设 $X=(x_1,x_2,...,x_n)$ , $Y=(y_1,y_2,...,y_n)$ 。在X发生的条件下Y的条件熵定义为：

$H(Y|X)=\sum_ip(x_i)H(Y|X=x_i)=-\sum_ip(x_i)\sum_jp(y_j|x_i)logp(y_j|x_i)$

------未完待续

[1]最大熵学习笔记(一) 预备知识. [Online] https://blog.csdn.net/itplus/article/details/26549871

weixin_41911765

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

1.自信息量：定义为，表示事件发生概率越大，自信息量越少，反之，自信息量越多。2.熵(香浓熵)：自信息量的期望。熵越大系统越混乱，也越稳定，因为事物总是自发的变得无序。熵越大系统不确定性越大。当时，熵值达到最大，不确定性达到最大，见下图。熵的值总是满足 ...
复制链接

扫一扫

weixin_41911765

博客等级

码龄6年

6
原创

44
点赞

174
收藏

15
粉丝

关注

私信

热门文章

最新评论

感知机算法的收敛证明，详细
weixin_41479867: 不等于1也没关系，只存在系数关系，只要b同时放大缩小就行，为了方便理论推导，设为1.
条件随机场的简单理解
*Ethan*: 写的太棒了
感知机算法的收敛证明，详细
qq_45842330: 证明第一个不等式最后一步为什么要伽玛代替那一串
感知机算法的收敛证明，详细
qq_45842330: 你好它的范数为什么要等于1呢？
感知机算法的收敛证明，详细
obwte 回复 Baille King: ||w||为范数啦，w为向量，比如w=（3,4），那么||w||=5，也就是模长

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。