熵、条件熵、相对熵的介绍

最新推荐文章于 2024-11-21 23:11:44 发布

Bruce-XIAO

最新推荐文章于 2024-11-21 23:11:44 发布

阅读量2.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：【机器学习】文章标签：数学熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CCSUXWZ/article/details/102994795

【机器学习】专栏收录该内容

16 篇文章

订阅专栏

熵的定义

熵是热力学中的概念，表示体系混乱程度的度量。在计算机领域中，熵通常用来表示信息的不确定性程度。信息量的度量就等于不确定性的多少，信息量越大，不确定性越高，熵越大。

例如：有人说广东下雪了。我们是十分不确定的。因为广东几十年来下雪的次数寥寥无几。为了搞清楚，我们就要去看天气预报，新闻，询问在广东的朋友，而这就需要大量的信息，信息熵很高

例如：太阳从东边出来。这句话是确定的，信息量非常小，因此熵很小。

信息熵的定义

p(x)表示随机变量x发生的概率，0<=p(x)<=1,所以熵总是一个大于等于0 的数,

熵减：消除不确定性

条件熵

知道Y的情况，以及X和Y一起出现的概率，数学上称为联合概率P(X,Y)

。定义在Y条件下X的条件熵为

可以证明：H(X)>=H(X|Y),也就是说，多了Y，X的不确定性下降了。信息的作用在于消除不确定性。

互信息

互信息表示了两个随机变量的相关性，例如乌云和下雨，两个事物的相关性就很高。

假定现在有两个随机事件X和Y，他们的互信息定义如下

这个信息表明了随机变量X在指导Y条件下的不确定性，或者说条件熵H(X|Y)之间的差异，即

就是在了解Y的前提下，消除X的不确定性

互信息的取值范围是0<= I(X:Y) <=min(H(X),H(Y)),当X和Y完全相关时，它的取值是1,当X和Y完全不相关时，它的取值为0。

相对熵

相对熵（relative entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence），是两个概率分布（probability distribution）间差异的非对称性度量 [1] 。在在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的差值 [2] 。

相对熵是一些优化算法，例如最大期望算法（Expectation-Maximization algorithm, EM）的损失函数 [3] 。此时参与计算的一个概率分布为真实分布，另一个为理论（拟合）分布，相对熵表示使用理论分布拟合真实分布时产生的信息损耗

设P(X),Q(X) 是随机变量X 上的两个概率分布，则在离散和连续随机变量的情形下，相对熵的定义分别为

在同样的字符集上，假设存在另一个概率分布 ,假设存在另一个分布Q(x).如果用P(x)表示最优编码(即字符x的编码长度为log(1/p(x))，来为分布Q(x) 的字符编码，那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离，即：

KL(P||Q)>=0且在P==Q时取0

相对熵的性质:

熵在决策树，信息熵和信息增益；EM算法损失函数定义，最大熵模型等处有应用。

内容来自：

吴军《数学之美》第二版

百度百科：https://baike.baidu.com/item/%E7%9B%B8%E5%AF%B9%E7%86%B5/4233536?fr=aladdin

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。