2020-10-18 二、熵的定义

最新推荐文章于 2022-07-15 00:31:04 发布

weixin_41366701

最新推荐文章于 2022-07-15 00:31:04 发布

阅读量710

点赞数

原文链接：https://zhuanlan.zhihu.com/p/39706910

版权

本文转自：https://zhuanlan.zhihu.com/p/39706910

1：熵的定义

假设离散随机变量 [公式] ，它的p.m.f是。我们定义的熵是：

[公式]
引理：

证明 [公式] ，即均匀分布熵最大。

利用拉格朗日乘子法证明：

[公式]

由拉格朗日计算可以可到： [公式] ，得到极值为。

2：联合熵和条件熵

定义（联合熵）： [公式]

定义（条件熵）：假如 [公式] ，则条件熵是：

[公式]

定理（链式规则）： [公式]

证明：

[公式]
推广：

注意：熵只依赖于随机变量的分布，与随机变量取值无关。

3：相对熵和互信息

定义（相对熵或Kullback–Leibler(KL) divergence）：KL散度是两个随机变量的概率质量函数 [公式] 和的距离，公式如下：

[公式]
其中：，且

定义（互信息）：假设随即变量 [公式] 和的p.m.f是，边际p.m.f分别是和。则互信息是：

[公式]
定理（互信息和熵的关系）：

[公式]
因此互信息就是在了解了其中一个的前提下，对消除另一个不确定性所提供的信息量，也可称为信息增益。

上面一堆概念，估计比较晕，用下面这个图很容易明白他们的关系。左边的椭圆代表 [公式] 右边的椭圆代表中间重合的部分就是我们的互信息或者信息增益左边的椭圆去掉重合部分就是右边的椭圆去掉重合部分就是两个椭圆的并就是

定义（条件互信息）：在给定 [公式] 后，随机变量和的互信息是：

[公式]
定义（条件相对熵）：

定理： [公式] 是两个p.m.f，则当且仅当时，等号成立。

推论：对于任意的 [公式] ，，当且仅当和独立时等号成立。

引理：一组非负序列 [公式] 和  是收敛的：
1.  或者  （两组正的序列KL距离定义）
2. 如果  ，则  ，当且仅当  时，等号成立。
3. 如果  且  对所有的  都成立，则

引理：令非负序列 [公式] 和是收敛的。则，当且仅当时等号成立。

引理： [公式] ，其中表示集合元素的个数，当且仅当有均匀分布时等号成立。【均匀分布时熵最大，即不确定性最大】

引理（Condition reduces entropy）： [公式] ，当且仅当（独立）时等号成立。：交叉熵

由KL散度可以得到： [公式] 。而KL散度的前半部分就是交叉熵。

若 [公式] 是数据的真实概率分布，是由数据计算得到的概率分布。机器学习的目的就是希望尽可能地逼近甚至等于，从而使得KL散度接近最小值0。由于真实的概率分布是固定的，KL散度公式的后半部分就成了一个常数。那么KL散度达到最小值的时候，也意味着交叉熵达到了最小值。对 [公式] 的优化就等效于求交叉熵的最小值。

5：微分熵

定义： [公式] 是连续的， (存在)，其中是随机变量的支撑。此时熵不一定是大于0。

定义（联合熵）：一组随机变量 [公式] 的 p.d.f 是，则联合熵是：

[公式]
定义（条件熵）：对于随机变量和，条件熵是：

[公式]

6：相对熵和互信息（连续）

定义（相对熵或Kullback–Leibler(KL) divergence）：两个连续随机变量 [公式] 和，KL散度为：

[公式]
注意：假如的支撑包含在的支撑上，则是有限的。

定义（互信息）：两个随机变量 [公式] 和 p.d.f 是，边际 p.d.f 分别为和。则互信息是：

[公式]
定理：，当且仅当与几乎处处相等时等号成立。

推论：
1. 对于任何 [公式] ，有，当且仅当和独立时等号成立。
2. ，当且仅当和独立时等号成立。

定理（微分熵的链式规则）： [公式]

推论： [公式]

定理： [公式] 是非奇异矩阵，

定理：假设 [公式] 均值是0，方差是，则，当且仅当时等号成立。（当一阶矩和二阶矩给定时，高斯分布的熵最大）

参考文献：

1、https://zhuanlan.zhihu.com/p/36192699

2、https://zhuanlan.zhihu.com/p/36311131

3、https://zhuanlan.zhihu.com/p/36385989

weixin_41366701

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-10-18 二、熵的定义

本文转自：https://zhuanlan.zhihu.com/p/397069101：熵的定义假设离散随机变量，它的p.m.f是。我们定义的熵是：引理：证明，即均匀分布熵最大。利用拉格朗日乘子法证明：由拉格朗日计算可以可到：，得到极值为。2：联合熵和条件熵定义（联合熵）：定义（条件熵）：假如，则条件熵是：定理（链式规则）：证明：推广：注意：熵只依赖于随机变量的分布，与随机变量取值无关。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。