如何理解信息论中的各种熵?

信息量(自信息)

如何量化信息:

信息量的大小跟事情不确定性的变化有关。

那么,不确定性的变化跟什么有关呢?

一,跟事情的可能结果的数量有关;二,跟概率有关。

那么,怎么衡量不确定性的变化的大小呢?怎么定义呢?

一,起码不是个负数吧,不然说句话还偷走信息呢~
二,起码信息量和信息量之间可以相加吧!假如你告诉我的第一句话的信息量是3,在第一句话的基础上又告诉我一句话,额外信息量是4,那么两句话信息量加起来应该等于7吧!难道还能是5是9?
三,刚刚已经提过,信息量跟概率有关系,但我们应该会觉得,信息量是连续依赖于概率的吧!就是说,某一个概率变化了0.0000001,那么这个信息量不应该变化很大。别人告诉的不一定是结果,也可能是概率变化。
四,刚刚也提过,信息量大小跟可能结果数量有关。假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量,因为初始状态下不确定性更大。
“信息是能够协助信宿消除事件不确定的因素” ——香农
一个事件的信息量就是这个事件发生的概率的负对数。
信息量用来衡量(别人告诉你)随机事件结果(别人告诉的不一定是结果,也可能是概率变化。)的惊讶程度,信息熵用来衡量随机事件的不确定性。
例如:掷硬币随机事件中发生正面的信息量=-log(1/2),掷硬币的信息熵= 1/2log(1/2)1/2log(1/2)

信息熵

信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
信息熵的提出最初是为了传输信号,例如想要传输A,B,C,D四个信号,根据他们不同的出现频率就会有不同的编码形式,也就有了不同的平均传输位数,因此不同的频率就对应不同的传输位数,这个平均传输位数就相当于信息熵。

相对熵(KL散度)

KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。
两个性质:1.非负,2.非对称

互信息

变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。
直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

条件熵

在信息论中,条件熵描述了在已知第二个随机变量 X 的值的前提下,随机变量 Y 的信息熵还有多少。
H(Y|X)=E[H(Y|X=x)]=p(x)H(Y|X=x)dx

交叉熵

对于分布p,q,他们的交叉熵 CEH(p,q)=Ep(logq)=p(x)logq(x)=H(p)+DKL(p||q) ,所以当p已知时CEH和KLD是等价的。
交叉熵意义:基于Q的编码来编码来自P的样本平均所需的的位元数。

总结

熵就是不确定性的度量,在统计学中就是事件的不确定性,所以信息熵,相对熵,条件熵等等各种熵,就是在不同状态下的事件的不确定性度量。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值