如何理解信息论中的各种熵？

最新推荐文章于 2021-04-21 17:16:03 发布

PKU_Jade

最新推荐文章于 2021-04-21 17:16:03 发布

阅读量2.2k

点赞数

文章标签：熵信息论机器学习

本文链接：https://blog.csdn.net/PKU_Jade/article/details/70305145

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

信息量(自信息)

如何量化信息：

信息量的大小跟事情不确定性的变化有关。

那么，不确定性的变化跟什么有关呢？

一，跟事情的可能结果的数量有关；二，跟概率有关。

那么，怎么衡量不确定性的变化的大小呢？怎么定义呢？

一，起码不是个负数吧，不然说句话还偷走信息呢~
二，起码信息量和信息量之间可以相加吧！假如你告诉我的第一句话的信息量是3，在第一句话的基础上又告诉我一句话，额外信息量是4，那么两句话信息量加起来应该等于7吧！难道还能是5是9？
三，刚刚已经提过，信息量跟概率有关系，但我们应该会觉得，信息量是连续依赖于概率的吧！就是说，某一个概率变化了0.0000001，那么这个信息量不应该变化很大。别人告诉的不一定是结果，也可能是概率变化。
四，刚刚也提过，信息量大小跟可能结果数量有关。假如每一个可能的结果出现的概率一样，那么对于可能结果数量多的那个事件，新信息有更大的潜力具有更大的信息量，因为初始状态下不确定性更大。
“信息是能够协助信宿消除事件不确定的因素” ——香农
一个事件的信息量就是这个事件发生的概率的负对数。
信息量用来衡量(别人告诉你)随机事件结果（别人告诉的不一定是结果，也可能是概率变化。）的惊讶程度，信息熵用来衡量随机事件的不确定性。
例如：掷硬币随机事件中发生正面的信息量=-log(1/2),掷硬币的信息熵= $-1/2*log(1/2)-1/2*log(1/2)$

信息熵

信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上，信息熵其实是信息量的期望。
信息熵的提出最初是为了传输信号，例如想要传输A,B,C,D四个信号，根据他们不同的出现频率就会有不同的编码形式，也就有了不同的平均传输位数，因此不同的频率就对应不同的传输位数，这个平均传输位数就相当于信息熵。

相对熵(KL散度)

KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。
两个性质：1.非负，2.非对称

互信息

变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。
直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）