1. 互信息信息熵条件互信息相关_联合互信息条件互信息-CSDN博客

本文链接：https://blog.csdn.net/qq_42147816/article/details/103713153

*参考于：
https://blog.csdn.net/pipisorry/article/details/51695283
https://www.cnblogs.com/gatherstars/p/6004075.html
https://blog.csdn.net/taoqick/article/details/72852255
*

信息/信息量

信息量可以被看成在学习 x 的值的时候的“惊讶程度”。如果有人告诉我们一个相当不可能的时间发生了,我们收到的信息要多于我们被告知某个很可能发生的事件发生时收到的信息。如果我们知道某件事情一定会发生,那么我们就不会接收到信息。于是,我们对于信息内容的度量将依赖于概率分布 p(x) ,因此我们想要寻找一个函数 h(x) ,它是概率 p(x) 的单调递增函数,表达了信息的内容。如果我们有两个不相关的事件 x 和 y ,那么我们观察到两个事件同时发生时获得的信息应该等于观察到事件各自发生时获得的信息之和,即 h(x,y)= h(x)+h(y)，我们有h(x) = −log 2 p(x),其中负号确保了信息一定是正数或者是零。注意,低概率事件 x 对应于高的信息量。

假设我们没有看世界杯的比赛，但是想知道哪支球队会是冠军，只能去问已经看过比赛的观众，但是我们只能猜测某支球队是或不是冠军，然后观众用对或不对来回答，我们想要猜测次数尽可能少，所用的方法就是二分法。假如有 16 支球队，分别编号，先问是否在 1-8 之间，如果是就继续问是否在 1-4 之间，以此类推，直到最后判断出冠军球队是哪只。如果球队数量是 16，我们需要问 4 次来得到最后的答案。那么世界冠军这条消息的信息量就是 4。在计算机中，这条信息的信息量就是 4 比特bit，如果一共是 32 支球队参赛，那么世界冠军的信息量就是 5 比特，可以看到信息量跟可能情况的对数 log （以 2 为底）有关（这里大概有点知道为什么求熵的公式里会有一个 log 了）。但是以往经验表示，如果世界杯有 32 支球队参赛，有些球队实力很强，拿到冠军的可能性更大，而有些队伍拿冠军的概率就很小。我们在之前用二分法计算的时候其实是看做每个球队夺冠的概率都相等，因此我们从最可能夺冠的几支球队中猜测冠军球队，实际需要的信息量是小于我们之前方法计算的信息量的。
准确的信息量应该是：
H = -（p1 * logp1 + p2 * logp2 + ... + p32 * logp32），
即信息量的数学期望，其中 p1, ..., p32 分别是这 32 支球队夺冠的概率。我们再回头验算一下，当每支球队夺冠概率相等都是 1/32 的时候，H = -（32 * 1/32 * log1/32） = 5，根据最大熵原理，每个事件概率相同时，熵最大，这件事越不确定。

熵/信息熵

在信息论中，信息熵是接收的每条消息中包含的信息的平均量，即期望。这里，消息代表来自分布或数据流中的事件、样本或特征。在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。因此信息熵表示的是信息的不确定性，信息熵越高，不确定性就越大，所需要的信息就越多。当一个事件的概率是1的时候我们不需要任何信息，而一个事件概率是0的时候我们需要无穷的信息。
因此对一个确定的取值or情况计算熵，一定是0。
香农给出的信息熵公式：
在这里插入图片描述
，H的单位为比特bit

相对熵（Kullback-Leibler divergence, KL 散度）

考虑某个未知的分p(x),假定我们已经使用一个近似的分布 q(x)对它进行了建模。如果我们使用q(x)来建立一个编码体系,用来把 x 的值传给接收者,那么,由于我们使用了 q(x) 而不是真实分布 p(x),因此在具体化 x 的值(假定我们选择了一个高效的编码系统)时,我们需要一些附加的信息。我们需要的平均的附加信息量(ln对应的单位是 nat )，即相对熵为
在这里插入图片描述

互信息

互信息实际上是更广泛的相对熵的特殊情形，设两个随机变量的联合分布为，边际分布分别为，互信息是联合分布与乘积分布的相对熵，即或使用概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为

可以把互信息看成由于知道 y 值而造成的 x 的不确定性的减小(反之亦然)，即Y的值透露了多少关于X 的信息量，或者一个随机变量中包含的关于另一个随机变量的信息量。

互信息的链法则

这个法则在用互信息初始化网络里用到了。则有

I(X,Y;CLASS) = H(X,Y)-H(X,Y|CLASS)
						 = H(X,Y)-[H(X,Y,CLASS)-H(CLASS)]
						 = H(CLASS)+H(X,Y)-H(X,Y,CLASS)

条件熵(来自知乎，一位哈工大博士写的)

条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。

注意，这个条件熵，不是指在给定某个数（某个变量为某个值）的情况下，另一个变量的熵是多少，变量的不确定性是多少。因为条件熵中X也是一个变量，意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望。
这是最容易错的！

1. 互信息 信息熵 条件互信息 相关

信息/信息量

熵/信息熵

相对熵（Kullback-Leibler divergence, KL 散度）

互信息

互信息的链法则

条件熵(来自知乎，一位哈工大博士写的)

1. 互信息信息熵条件互信息相关