2020-10-18 二、熵的定义

本文转自:https://zhuanlan.zhihu.com/p/39706910

1: 熵的定义

假设离散随机变量 [公式] ,它的p.m.f是 [公式] 。我们定义 [公式] 的熵 [公式] 是:

[公式] 
引理: [公式]

证明 [公式] ,即均匀分布熵最大。

利用拉格朗日乘子法证明:

[公式] 
[公式]

由拉格朗日计算可以可到: [公式] , [公式] 得到极值为 [公式] 。


2: 联合熵和条件熵

定义(联合熵): [公式]

定义(条件熵):假如 [公式] ,则条件熵是:

[公式]

定理(链式规则): [公式]

证明:

[公式] 
推广: [公式]

注意:熵只依赖于随机变量的分布,与随机变量取值无关。


3: 相对熵和互信息

定义(相对熵或Kullback–Leibler(KL) divergence):KL散度是两个随机变量的概率质量函数 [公式] 和 [公式] 的距离,公式如下:

[公式] 
其中: [公式] ,且 [公式]

定义(互信息):假设随即变量 [公式] 和 [公式] 的p.m.f是 [公式] ,边际p.m.f分别是 [公式] 和 [公式] 。则互信息 [公式] 是:

[公式] 
定理(互信息和熵的关系):

[公式] 
因此互信息就是在了解了其中一个 [公式] 的前提下,对消除另一个 [公式] 不确定性所提供的信息量,也可称为信息增益。

上面一堆概念,估计比较晕,用下面这个图很容易明白他们的关系。左边的椭圆代表 [公式] 右边的椭圆代表 [公式] 中间重合的部分就是我们的互信息或者信息增益 [公式] 左边的椭圆去掉重合部分就是 [公式] 右边的椭圆去掉重合部分就是 [公式]两个椭圆的并就是 [公式]

定义(条件互信息):在给定 [公式] 后,随机变量 [公式] 和 [公式] 的互信息是:

[公式] 
定义(条件相对熵): [公式]

定理: [公式] 是两个p.m.f,则 [公式] 当且仅当 [公式] 时,等号成立。

推论:对于任意的 [公式] , [公式] ,当且仅当 [公式] 和 [公式] 独立时等号成立。

引理:一组非负序列 [公式] 和 [公式] 是收敛的:
1. [公式] 或者 [公式] (两组正的序列KL距离定义)
2. 如果 [公式] ,则 [公式] ,当且仅当 [公式] 时,等号成立。
3. 如果 [公式] 且 [公式] 对所有的 [公式] 都成立,则 [公式]

引理:令非负序列 [公式] 和 [公式] 是收敛的。则 [公式] ,当且仅当 [公式] 时等号成立。

引理: [公式] ,其中 [公式] 表示集合 [公式] 元素的个数,当且仅当 [公式] 有均匀分布时等号成立。【均匀分布时熵最大,即不确定性最大】

引理(Condition reduces entropy): [公式] ,当且仅当 [公式] (独立)时等号成立。: 交叉熵

由KL散度可以得到: [公式] 。而KL散度的前半部分 [公式] 就是交叉熵。

若 [公式] 是数据的真实概率分布, [公式] 是由数据计算得到的概率分布。机器学习的目的就是希望 [公式] 尽可能地逼近甚至等于 [公式] ,从而使得KL散度接近最小值0。由于真实的概率分布是固定的,KL散度公式的后半部分 [公式] 就成了一个常数。那么KL散度达到最小值的时候,也意味着交叉熵达到了最小值。对 [公式] 的优化就等效于求交叉熵的最小值。


5: 微分熵

定义: [公式] 是连续的, [公式] (存在),其中 [公式] 是随机变量的支撑。此时熵不一定是大于0。

定义(联合熵):一组随机变量 [公式] 的 p.d.f 是 [公式] ,则联合熵是:

[公式] 
定义(条件熵):对于随机变量 [公式] 和 [公式] ,条件熵是:

[公式]


6: 相对熵和互信息(连续)

定义(相对熵或Kullback–Leibler(KL) divergence):两个连续随机变量 [公式] 和 [公式] ,KL散度为:

[公式] 
注意:假如 [公式] 的支撑包含在 [公式] 的支撑上,则 [公式] 是有限的。

定义(互信息):两个随机变量 [公式] 和 [公式] p.d.f 是 [公式] ,边际 p.d.f 分别为 [公式] 和 [公式]。则互信息 [公式] 是:

[公式] 
定理: [公式] ,当且仅当 [公式] 与 [公式] 几乎处处相等时等号成立。

推论:
1. 对于任何 [公式] ,有 [公式] ,当且仅当 [公式] 和 [公式] 独立时等号成立。
2. [公式] ,当且仅当 [公式] 和 [公式] 独立时等号成立。

定理(微分熵的链式规则): [公式]

推论: [公式]

定理: [公式] 是非奇异矩阵, [公式]

定理:假设 [公式] 均值是0,方差是 [公式] ,则 [公式],当且仅当 [公式] 时等号成立。(当一阶矩和二阶矩给定时,高斯分布的熵最大)

参考文献:

1、https://zhuanlan.zhihu.com/p/36192699

2、https://zhuanlan.zhihu.com/p/36311131

3、https://zhuanlan.zhihu.com/p/36385989

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值