熵、条件熵、互信息等概念

最新推荐文章于 2023-03-15 15:30:13 发布

Savitch

最新推荐文章于 2023-03-15 15:30:13 发布

阅读量920

点赞数

分类专栏： Machine Learning

Machine Learning 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

转：http://ziketang.com/2013/08/some-notions-about-entropy/

关于这些概念看过很多次了，但一直都记不住，索性用笔记形式记下来备查吧。

1. 熵Entropy

关于熵的基本概念就不说了，可以认为是用来描述随机变量的不确定性，也可以说是用来描述随机变量平均信息量（信息量用编码长度表示，熵即为编码长度的期望形式）。公式如下：

H (X) = - \sum x \in X p (x) log a p (x)

当

a=2 时，即熵的单位为比特。可以看到，当有必然事件

p(x)=1 发生时，熵值达到最小值0；当所有概率均相等时，熵值达到最大。

2. 联合熵Joint Entropy、条件熵Conditional Entropy

设 X,Y 是两个离散型随机变量，它们的联合分布密度为 p(x,y) ，则 X 和 Y 的联合熵定义为：

H (X, Y) = - \sum x \in X, y \in Y p (x, y) log p (x, y)

条件熵定义为：

H (Y | X) = - \sum x \in X p (x) H (Y | X = x) = - \sum x \in X p (x) ⎡ ⎣ \sum y \in Y p (y | x) log p (y | x) ⎤ ⎦ = - \sum x \in X, y \in Y p (x, y) log p (y | x)

3. 互信息Mutual Information

根据以上的定义，有链式规则：

H (X, Y) = H (X) + H (Y | X) = H (Y) + H (X | Y)

证明如下：

H (X) + H (Y | X) = - \sum x \in X p (x) log p (x) - \sum x \in X, y \in Y p (x, y) log p (y | x) = - \sum x \in X, y \in Y p (x, y) log p (x) - \sum x \in X, y \in Y p (x, y) log p (y | x) = - \sum x \in X, y \in Y p (x, y) log p (x, y) = H (X, Y)

同理交换

X 和

Y 则可证明

H(X,Y)=H(Y)+H(X|Y) 。
同时，根据链式规则可推导出互信息的定义：

M I (X, Y) = H (X) - H (X | Y) = H (Y) - H (Y | X)

根据定义，可推导出：

M I (X, Y) = H (X) - H (X | Y) = - \sum x \in X p (x) log p (x) + \sum x \in X, y \in Y p (x, y) log p (x | y) = - \sum x \in X, y \in Y p (x, y) log p (x) + \sum x \in X, y \in Y p (x, y) log p (x | y) = - \sum x \in X, y \in Y p (x, y) log p ( x ) p ( x | y ) = - \sum x \in X, y \in Y p (x, y) log p ( x ) p ( y ) p ( x , y ) = \sum x \in X, y \in Y p (x, y) log p ( x , y ) p ( x ) p ( y )

互信息用来描述包含在X中有关Y的信息量，或包含在Y中有关X的信息量，在形式上可理解为在确定了其中的

Y 后

X 的熵值保留。

~~根据互信息，可以来判定相关性：~~
~~– 当 MI(X,Y)>>0 时， X 和 Y 高度相关；~~
~~– 当 MI(X,Y)=0 时， X 和 Y 相互独立；~~
~~– 当 MI(X,Y)<<0 时， X 和 Y 互补相关。~~

上面的定义均可以表达在Venn韦恩图中：

两个集合A,B，其中A代表 H(X) ，B代表 H(Y) ，交集为 MI(X,Y) ，并集为 H(X,Y) 。

4. 交叉熵Cross Entropy

设随机变量 X 的分布密度为 p(x) ，在很多情况下该密度是未知的，通过使用统计手段得到 X 的近似分布 q(x) ，则将随机变量 X 的交叉熵定义为：

H (X, q) = - \sum x \in X p (x) log q (x)

形式上可以理解为使用

q(x) 来代替原来

p(x) 的信息量。

5. 相对熵Relative Entropy

设 p(x) 、 q(x) 是随机变量 X 的两个不同分布密度，则它们的相对熵定义为：

D (p | | q) = \sum x \in X p (x) log p ( x ) q ( x ) = \sum x \in X p (x) log p (x) - \sum x \in X p (x) log q (x) = H (X, q) - H (q)

相对熵一般也称为Kullback-Leibler散度或Kullback-Leibler距离，可以用来度量一个随机变量不同分布的差异程度，描述了因为错用分布密度而增加的信息量。

参考：

[1] 常宝宝, 熵和语言模型评价, 北京大学计算语言学研究所, http://www.icl.pku.edu.cn/member/chbb/lecture/CL/Computational_Linguistics_04.pdf

====更正===

2014-03-29 互信息与相关性的关系错误，该处在参考P11页中应为点互信息。正确的互信息与相关性关系：当相关性为+/-1时，互信息趋于无穷；当相关性为0时，互信息为0。感谢@pbqy网友指正

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。