本文转自:https://zhuanlan.zhihu.com/p/39706910
1: 熵的定义
假设离散随机变量 ,它的p.m.f是
。我们定义
的熵
是:
引理:
证明 ,即均匀分布熵最大。
利用拉格朗日乘子法证明:
由拉格朗日计算可以可到: ,
得到极值为
。
2: 联合熵和条件熵
定义(联合熵):
定义(条件熵):假如 ,则条件熵是:
定理(链式规则):
证明:
推广:
注意:熵只依赖于随机变量的分布,与随机变量取值无关。
3: 相对熵和互信息
定义(相对熵或Kullback–Leibler(KL) divergence):KL散度是两个随机变量的概率质量函数 和
的距离,公式如下:
其中: ,且
定义(互信息):假设随即变量 和
的p.m.f是
,边际p.m.f分别是
和
。则互信息
是:
定理(互信息和熵的关系):
因此互信息就是在了解了其中一个 的前提下,对消除另一个
不确定性所提供的信息量,也可称为信息增益。
上面一堆概念,估计比较晕,用下面这个图很容易明白他们的关系。左边的椭圆代表 右边的椭圆代表
中间重合的部分就是我们的互信息或者信息增益
左边的椭圆去掉重合部分就是
右边的椭圆去掉重合部分就是
两个椭圆的并就是
定义(条件互信息):在给定 后,随机变量
和
的互信息是:
定义(条件相对熵):
定理: 是两个p.m.f,则
当且仅当
时,等号成立。
推论:对于任意的 ,
,当且仅当
和
独立时等号成立。
引理:一组非负序列 和
是收敛的:
1. 或者
(两组正的序列KL距离定义)
2. 如果 ,则
,当且仅当
时,等号成立。
3. 如果 且
对所有的
都成立,则
引理:令非负序列 和
是收敛的。则
,当且仅当
时等号成立。
引理: ,其中
表示集合
元素的个数,当且仅当
有均匀分布时等号成立。【均匀分布时熵最大,即不确定性最大】
引理(Condition reduces entropy): ,当且仅当
(独立)时等号成立。: 交叉熵
由KL散度可以得到: 。而KL散度的前半部分
就是交叉熵。
若 是数据的真实概率分布,
是由数据计算得到的概率分布。机器学习的目的就是希望
尽可能地逼近甚至等于
,从而使得KL散度接近最小值0。由于真实的概率分布是固定的,KL散度公式的后半部分
就成了一个常数。那么KL散度达到最小值的时候,也意味着交叉熵达到了最小值。对
的优化就等效于求交叉熵的最小值。
5: 微分熵
定义: 是连续的,
(存在),其中
是随机变量的支撑。此时熵不一定是大于0。
定义(联合熵):一组随机变量 的 p.d.f 是
,则联合熵是:
定义(条件熵):对于随机变量 和
,条件熵是:
6: 相对熵和互信息(连续)
定义(相对熵或Kullback–Leibler(KL) divergence):两个连续随机变量 和
,KL散度为:
注意:假如 的支撑包含在
的支撑上,则
是有限的。
定义(互信息):两个随机变量 和
p.d.f 是
,边际 p.d.f 分别为
和
。则互信息
是:
定理: ,当且仅当
与
几乎处处相等时等号成立。
推论:
1. 对于任何 ,有
,当且仅当
和
独立时等号成立。
2. ,当且仅当
和
独立时等号成立。
定理(微分熵的链式规则):
推论:
定理: 是非奇异矩阵,
定理:假设 均值是0,方差是
,则
,当且仅当
时等号成立。(当一阶矩和二阶矩给定时,高斯分布的熵最大)
参考文献:
1、https://zhuanlan.zhihu.com/p/36192699